빅데이터

[빅데이터] 임팔라, 스쿱, 머하웃 설치 With Cloudera, 제플린 설치 With Linux

allempty_sheep 2024. 6. 18. 11:40
반응형
🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.

🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다.

 

데이터 분석을 위한 임팔라, 제플린, 머하웃을 사용해 보고, 스쿱을 이용하여 분석 데이터를 저장 해 볼 것이다.

 

임팔라 추가

◼ 클러스터 - 서비스 추가 - 임팔라를 선택

 

설치될 서버(server02)를 선택한다.

 

  Impala Daemon 스크래치 디렉토리란

쿼리 실행 시 생성되는 임시파일을 저장하는 위치이다.

 

임팔라는 휴와 연동이 되어있으니

◼ Hue - 구성 - Impala 검색 후 설정 해주고 저장.

◼ 임팔라 재시작.

◼ Hue 재시작.

hue 에 Impala 가 추가된 것을 볼 수 있다.

 

⭕ 스쿱 추가.

 

◼ 클러스터 - 서비스 추가 - 스쿱

 

 

◼ 서버 선택(server02)

 

이후 재 배포를 해 주어야 한다.

 

제플린 추가.

제플린은 Cloudera 에서 지원을 하지 않아 서버에 직접 다운받아 줄 것이다.

 

◼ server02 에 아래 실행.

cd /home/pilot-pjt
wget http://archive.apache.org/dist/zeppelin/zeppelin-0.8.2/zeppelin-0.8.2-bin-all.tgz

 

압축풀기

tar -xvf zeppelin-0.8.2-bin-all.tgz


link 걸기

 ln -s zeppelin-0.8.2-bin-all zeppelin


제플린 구성정보 변경을 위한 폴더 이동

cd /home/pilot-pjt/zeppelin/conf


template 파일을 가지고 복사

cp zeppelin-env.sh.template zeppelin-env.sh


◼ vi 접속 

vi zeppelin-env.sh

 

다음 내용을 추가

export JAVA_HOME=/usr/java/jdk1.8.0_181-cloudera
export SPARK_HOME=/opt/cloudera/parcels/CDH/lib/spark
export HADOOP_CONF_DIR=/etc/hadoop/conf

 

◼ hive 임시 디렉토리를 제플린이 사용하도록 권한변경

chmod 777 /tmp/hive

 

◼ 제플린에서 hive interpreter를 사용하기 위해 hive 설정파일을 복사

cp /etc/hive/conf/hive-site.xml /home/pilot-pjt/zeppelin/conf
cd /home/pilot-pjt/zeppelin/conf
cp zeppelin-site.xml.template zeppelin-site.xml

 

◼ 내용을 수정한다

vi zeppelin-site.xml
  1.zeppelin.server.addr 변경 
    127.0.0.1 => 0.0.0.0

  2.zeppelin.server.port 변경
    8080 => 8081

 

◼ 해당 파일에 아래 내용 추가.

vi /root/.bash_profile
PATH=$PATH:/home/pilot-pjt/zeppelin/bin

 

◼ 변경 내용 즉시 적용

source /root/.bash_profile

 

zeppelin 실행

zeppelin-daemon.sh start

 

 zeppelin url 실행 (자신의 서버와 포트번호)

http://server02.hadoop.com:8081

 

머하웃 추가

❓ 머하웃이란

대용량 데이터를 처리하는 기계 학습용 라이브러리

 

◼ 아래 위치로 이동해서 파일 다운

cd /home/pilot-pjt
wget http://archive.apache.org/dist/mahout/0.13.0/apache-mahout-distribution-0.13.0.tar.gz

 

압축해제

tar -xvf apache-mahout-distribution-0.13.0.tar.gz

 

 link 걸기

ln -s apache-mahout-distribution-0.13.0 mahout

 

◼ 패스 내용추가를 위한 파일 열기

vi /root/.bash_profile
PATH=$PATH:/home/pilot-pjt/mahout/bin

export JAVA_HOME=/usr/java/jdk1.8.0_181-cloudera

 

◼ 패스 적용

source /root/.bash_profile

 

◼ 머하웃 실행

mahout

다음과 같이 나오면 설치가 완료 된 것이다.