빅데이터

[빅데이터] 스파크를 이용한 데이터 셋 탐색

allempty_sheep 2024. 6. 14. 12:11
반응형
🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.

🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다.

 

스파크 쉘을 실행 시켜주자

spark-shell

 

실행시 에러가 나서 server02 를 다시 실행 시켜주니 잘 되었다.

 

smartcar_master_df 라는 데이터 프레임에 나이가 18살 이상인 데이터들을 할당 하였다.

val smartcar_master_df = spark.sqlContext.sql("select * from SmartCar_Master where age >= 18")

 

데이터 프레임 안의 데이터 확인

smartcar_master_df.show()

 

문제)
Spark를 사용하여 데이터 조회
dataFrame명: personInfo
조건 : 남자이고 나이가 20~40대이고 미혼인 내역만 조회

 

답 :

val personInfo = spark.sqlContext.sql("select * from SmartCar_Master where sex = '남' AND marriage = '미혼' AND age BETWEEN 20 AND 40")
personInfo.show()

 

 

스파크는 메모리에서 실행 되기 때문에 하이브보다 속도가 빠르다. ( 3개가량)

종료 명령어는 다음과 같다.

:quit

 

다시 들어가서 아래 명령어를 입력 해 본다.

데이터셋을 해당 이름(SmartCar_Master_Over18)으로 저장 하는 문구이다.

나갔다 왔으니 위의 선언을 다시 해준다.

val smartcar_master_df = spark.sqlContext.sql("select * from SmartCar_Master where age >= 18")
smartcar_master_df.write.saveAsTable("SmartCar_Master_Over18")

 

 

Hive 에디터에서 데이터를 조회 해보자.

select *
  from SmartCar_Master_Over18
limit 10;