빅데이터 27

[빅데이터] 군집 분석

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다.  ◼ 임팔라에서 다음을 실행 해 본다. 해당 데이터들을 이용하여 군집 분석을 진행 할 거이다. (Impala에서 실행) select * from smartcar_master limit 100; ◼ 해당 데이터들을 가공하여 파일을 만들어 주자. (Hive 에디터에서 실행)insert overwrite local directory '/home/pilot-pjt/mahout-data/clustering/input'ROW FORMAT DELIMITEDFIELDS TERMINATED BY ' 'select car_..

빅데이터 2024.06.19

[빅데이터] 데이터를 이용한 예측, 분류

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. ◼ Hive 쿼리 에디터로 아래 내용을 돌려 데이터셋을 가공한다.insert overwrite local directory '/home/pilot-pjt/spark-data/classification/input'ROW FORMAT DELIMITEDFIELDS TERMINATED BY ','select sex, age, marriage, region, job, car_capacity, car_year, car_model, tire_fl, tire_fr, tire_bl, tire_br, light_fl, li..

빅데이터 2024.06.18

[빅데이터] 머하웃 사용해 보기.

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. ❓ 아파치 머하웃 이란?💨 분산처리가 가능한 확장성을 가진 기계학습용 라이브러리.💨 맵리듀스를 이용하는 아파치 아둡위에 적용된다. ◼ 하이브 쿼리에 아래의 내용을 입력 해 보자.insert overwrite local directory '/home/pilot-pjt/mahout-data/recommendation/input'ROW FORMAT DELIMITEDFIELDS TERMINATED BY ','select hash(car_number ), hash(item), score from managed_sma..

빅데이터 2024.06.18

[빅데이터] 제플린 사용해 보기.

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. ❓ 아파치 제플린이란?💨 데이터 탐색, 분석을 위한 도구.💨 스파크를 이용한 Web 기반의 어플리케이션.💨 Notebook 형대토 데이터를 다루고 분석 함. 제플린을 사용하여 운행지역을 분석 하여보고 시각화 하여 볼 것이다. ◼ 제플린 실행 여부 확인zeppelin-daemon.sh status ◼ 실행이 되어있다면 아래 페이지에 들어간다.http://server02.hadoop.com:8081 ◼ 노트를 하나 만들어 주자. ◼ 노트에 실행할 명령어를 적어준다.%sh hdfs dfs -cat /user/h..

빅데이터 2024.06.18

[빅데이터] Impala 사용해 보기.

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. ❓ 임팔라 란?🥚 아파치 하둡 위에서 실행되는 SQL 쿼리 엔진.🥚 하이브에 비하여 임팔라는 속도가 빠르다.  ◼ 아래 데이터를 임팔라와 하이브에 서 각각 실행 시켜 보자.select * from managed_smartcar_symptom_info where biz_date = '20240615';  ◼ 운행 지역을 살펴보자select T2.area_number, T2.car_number, T2.speed_avgfrom ( select T1.area_number, T..

빅데이터 2024.06.18

[빅데이터] 임팔라, 스쿱, 머하웃 설치 With Cloudera, 제플린 설치 With Linux

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. 데이터 분석을 위한 임팔라, 제플린, 머하웃을 사용해 보고, 스쿱을 이용하여 분석 데이터를 저장 해 볼 것이다. ⭕ 임팔라 추가◼ 클러스터 - 서비스 추가 - 임팔라를 선택 설치될 서버(server02)를 선택한다.  ❓ Impala Daemon 스크래치 디렉토리란쿼리 실행 시 생성되는 임시파일을 저장하는 위치이다. 임팔라는 휴와 연동이 되어있으니◼ Hue - 구성 - Impala 검색 후 설정 해주고 저장.◼ 임팔라 재시작.◼ Hue 재시작. ⭕ 스쿱 추가. ◼ 클러스터 - 서비스 추가 - 스쿱  ◼ 서버 선..

빅데이터 2024.06.18

[빅데이터] Oozie Workflow

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. 진행에 주의 할 점은 이때까지 생성한 데이터를 이용해야한다. 자신의 데이터를 만들어둔 날짜를 변수로 넣는 것을 잊지말자. Subject2 에 스마트카 운전자 운행 기록 정보를 이용한 Workflow 를 작성 해 본다. 파일 이름 : create_table_smartcar_drive_info_2.hqlcreate external table if not exists SmartCar_Drive_Info_2 ( r_key string, r_date string, car_number string, speed..

빅데이터 2024.06.17

[빅데이터] Oozie 사용 해 보기.

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. Oozie 를 이용하여 스케줄링을 해볼 것이다. (server02)cd /home/pilot-pjt/working 프로세스를 하나 실행한다. 스마트가의 상태 로그를 만들어준다.java -cp bigdata.smartcar.loggen-1.0.jar com.wikibook.bigdata.smartcar.loggen.CarLogMain 20240614 100 & 데이터가 쌓이는 위치에 가서 확인 해 보자.cd /home/pilot-pjt/working/SmartCartail -f SmartCarStatusInfo_..

빅데이터 2024.06.14

[빅데이터] 스파크를 이용한 데이터 셋 탐색

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. 스파크 쉘을 실행 시켜주자spark-shell 실행시 에러가 나서 server02 를 다시 실행 시켜주니 잘 되었다. smartcar_master_df 라는 데이터 프레임에 나이가 18살 이상인 데이터들을 할당 하였다.val smartcar_master_df = spark.sqlContext.sql("select * from SmartCar_Master where age >= 18") 데이터 프레임 안의 데이터 확인smartcar_master_df.show() 문제) Spark를 사용하여 데이터 조회dataFr..

빅데이터 2024.06.14

[빅데이터] 문제 풀이 Hive 를 이용한 데이터 탐색

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. 차량 2대에 대해 배터리 잔량이 20에서 50사이인 데이터가다음과 같이 조회되도록 sql를 작성 (단,차량번호 내림차순)차량번호건수XXXX   XXX답 : SELECT car_number, COUNT(battery) as count FROM SmartCar_Status_Info WHERE car_number in('C0001','Q0002') AND battery BETWEEN 20 AND 50 group by car_number order by car_number;   외부에 테이블을 생성하고 ..

빅데이터 2024.06.14