스파크 3

[빅데이터] 데이터를 이용한 예측, 분류

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. ◼ Hive 쿼리 에디터로 아래 내용을 돌려 데이터셋을 가공한다.insert overwrite local directory '/home/pilot-pjt/spark-data/classification/input'ROW FORMAT DELIMITEDFIELDS TERMINATED BY ','select sex, age, marriage, region, job, car_capacity, car_year, car_model, tire_fl, tire_fr, tire_bl, tire_br, light_fl, li..

빅데이터 2024.06.18

[빅데이터] 스파크를 이용한 데이터 셋 탐색

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. 스파크 쉘을 실행 시켜주자spark-shell 실행시 에러가 나서 server02 를 다시 실행 시켜주니 잘 되었다. smartcar_master_df 라는 데이터 프레임에 나이가 18살 이상인 데이터들을 할당 하였다.val smartcar_master_df = spark.sqlContext.sql("select * from SmartCar_Master where age >= 18") 데이터 프레임 안의 데이터 확인smartcar_master_df.show() 문제) Spark를 사용하여 데이터 조회dataFr..

빅데이터 2024.06.14

[빅데이터] Cloudera에 Hive, Oozie, Hue, Spark 설치

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. Cloudera Manager에서 Hive를 추가 해 줄 것이다.클러스터 - 서비스 추가 아래와 같이 설정 해준다. server02 만 선택 WebHCat Server 는 선택하지 않는다. 내장 데이터베이스를 사용할 것인데 암호를 복사해서 기억 해두자 ( Fe4uMp4Vu7 ) 에러가 날 시 Resume 버튼을 한번 눌러보고 그래도 안된다면 다음과 같이 진행한다.클라우데라 - HBase - RegionServer 재시작 yarn 도 재시작 해보자 이후 다시 추가를 하려고 하면 다음과 같이 잘 되는 것을 볼 수 ..

빅데이터 2024.06.13