반응형
🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.
🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다.
스파크 쉘을 실행 시켜주자
spark-shell
실행시 에러가 나서 server02 를 다시 실행 시켜주니 잘 되었다.
smartcar_master_df 라는 데이터 프레임에 나이가 18살 이상인 데이터들을 할당 하였다.
val smartcar_master_df = spark.sqlContext.sql("select * from SmartCar_Master where age >= 18")
데이터 프레임 안의 데이터 확인
smartcar_master_df.show()
문제)
Spark를 사용하여 데이터 조회
dataFrame명: personInfo
조건 : 남자이고 나이가 20~40대이고 미혼인 내역만 조회
답 :
val personInfo = spark.sqlContext.sql("select * from SmartCar_Master where sex = '남' AND marriage = '미혼' AND age BETWEEN 20 AND 40")
personInfo.show()
스파크는 메모리에서 실행 되기 때문에 하이브보다 속도가 빠르다. ( 3개가량)
종료 명령어는 다음과 같다.
:quit
다시 들어가서 아래 명령어를 입력 해 본다.
데이터셋을 해당 이름(SmartCar_Master_Over18)으로 저장 하는 문구이다.
나갔다 왔으니 위의 선언을 다시 해준다.
val smartcar_master_df = spark.sqlContext.sql("select * from SmartCar_Master where age >= 18")
smartcar_master_df.write.saveAsTable("SmartCar_Master_Over18")
Hive 에디터에서 데이터를 조회 해보자.
select *
from SmartCar_Master_Over18
limit 10;
'빅데이터' 카테고리의 다른 글
[빅데이터] Oozie Workflow (0) | 2024.06.17 |
---|---|
[빅데이터] Oozie 사용 해 보기. (2) | 2024.06.14 |
[빅데이터] 문제 풀이 Hive 를 이용한 데이터 탐색 (0) | 2024.06.14 |
[빅데이터] Hue 에서 Hive 명령문 사용. (1) | 2024.06.13 |
[빅데이터] Cloudera에 Hive, Oozie, Hue, Spark 설치 (0) | 2024.06.13 |