반응형
🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.
🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다.
❓ 아파치 머하웃 이란?
💨 분산처리가 가능한 확장성을 가진 기계학습용 라이브러리.
💨 맵리듀스를 이용하는 아파치 아둡위에 적용된다.
◼ 하이브 쿼리에 아래의 내용을 입력 해 보자.
insert overwrite local directory '/home/pilot-pjt/mahout-data/recommendation/input'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
select hash(car_number ), hash(item), score from managed_smartcar_item_buylist_info
자동차 번호, 아이템을 해시 코드로 변형하여 가져와 준다.
◼ 서버(server02)에서 다음을 실행 해 만들어진 파일을 확인 할 수 있다.
more /home/pilot-pjt/mahout-data/recommendation/input/*
◼ 경로를 생성하고 파일을 저장한다.
hdfs dfs -mkdir -p /pilot-pjt/mahout/recommendation/input
hdfs dfs -put /home/pilot-pjt/mahout-data/recommendation/input/* /pilot-pjt/mahout/recommendation/input/item_buylist.txt
◼ 머하웃 추천 분석기를 실행한다.
mahout recommenditembased -i /pilot-pjt/mahout/recommendation/input/item_buylist.txt -o /pilot-pjt/mahout/recommendation/output/ -s SIMILARITY_COOCCURRENCE -n 3
i 는 입력데이터
o 는 출력 데이터
s 는 알고리즘 종류
n 은 추천해줄 상품의 갯수를 뜻함.
◼ Hue 로가서 파일이 생성되어있는지 확인 해 보자.
/pilot-pjt/mahout/recommendation/output
part-r-00000 이라는 파일이 생성된 것을 볼 수 있다.
차량 번호에 대하여 추천된 아이템을 볼 수 있다.
만약 mahout을 사용하여 추천을 재실행하는 경우에는
기존 결과 파일을 삭제 해 주어야 한다.
hdfs dfs -rm -R -skipTrash /pilot-pjt/mahout/recommendation/output
hdfs dfs -rm -R -skipTrash /user/root/temp
'빅데이터' 카테고리의 다른 글
[빅데이터] 군집 분석 (2) | 2024.06.19 |
---|---|
[빅데이터] 데이터를 이용한 예측, 분류 (0) | 2024.06.18 |
[빅데이터] 제플린 사용해 보기. (0) | 2024.06.18 |
[빅데이터] Impala 사용해 보기. (2) | 2024.06.18 |
[빅데이터] 임팔라, 스쿱, 머하웃 설치 With Cloudera, 제플린 설치 With Linux (0) | 2024.06.18 |