빅데이터

[빅데이터] 머하웃 사용해 보기.

allempty_sheep 2024. 6. 18. 14:42
반응형
🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.

🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다.

 

❓ 아파치 머하웃 이란?

💨 분산처리가 가능한 확장성을 가진 기계학습용 라이브러리.

💨 맵리듀스를 이용하는 아파치 아둡위에 적용된다.

 

◼ 하이브 쿼리에 아래의 내용을 입력 해 보자.

insert overwrite local directory '/home/pilot-pjt/mahout-data/recommendation/input'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
select hash(car_number ), hash(item), score from managed_smartcar_item_buylist_info

자동차 번호, 아이템을 해시 코드로 변형하여 가져와 준다.

 

◼ 서버(server02)에서 다음을 실행 해 만들어진 파일을 확인 할 수 있다.

more /home/pilot-pjt/mahout-data/recommendation/input/*

 

◼ 경로를 생성하고 파일을 저장한다.

hdfs dfs -mkdir -p /pilot-pjt/mahout/recommendation/input
hdfs dfs -put /home/pilot-pjt/mahout-data/recommendation/input/* /pilot-pjt/mahout/recommendation/input/item_buylist.txt

 

◼ 머하웃 추천 분석기를 실행한다.

mahout recommenditembased -i /pilot-pjt/mahout/recommendation/input/item_buylist.txt -o /pilot-pjt/mahout/recommendation/output/ -s SIMILARITY_COOCCURRENCE -n 3

 

i 는 입력데이터

o 는 출력 데이터

s 는 알고리즘 종류

n 은 추천해줄 상품의 갯수를 뜻함.

 

◼ Hue 로가서 파일이 생성되어있는지 확인 해 보자.

/pilot-pjt/mahout/recommendation/output

 

part-r-00000 이라는 파일이 생성된 것을 볼 수 있다.

차량 번호에 대하여 추천된 아이템을 볼 수 있다.

 

만약 mahout을 사용하여 추천을 재실행하는 경우에는
기존 결과 파일을 삭제 해 주어야 한다.

hdfs dfs -rm -R -skipTrash /pilot-pjt/mahout/recommendation/output
hdfs dfs -rm -R -skipTrash /user/root/temp