[빅데이터] 스파크를 이용한 데이터 셋 탐색

빅데이터

[빅데이터] 스파크를 이용한 데이터 셋 탐색

allempty_sheep 2024. 6. 14. 12:11

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.

🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다.

스파크 쉘을 실행 시켜주자

spark-shell

실행시 에러가 나서 server02 를 다시 실행 시켜주니 잘 되었다.

smartcar_master_df 라는 데이터 프레임에 나이가 18살 이상인 데이터들을 할당 하였다.

val smartcar_master_df = spark.sqlContext.sql("select * from SmartCar_Master where age >= 18")

데이터 프레임 안의 데이터 확인

smartcar_master_df.show()

문제)
Spark를 사용하여 데이터 조회
dataFrame명: personInfo
조건 : 남자이고 나이가 20~40대이고 미혼인 내역만 조회

답 :

val personInfo = spark.sqlContext.sql("select * from SmartCar_Master where sex = '남' AND marriage = '미혼' AND age BETWEEN 20 AND 40")

personInfo.show()

스파크는 메모리에서 실행 되기 때문에 하이브보다 속도가 빠르다. ( 3개가량)

종료 명령어는 다음과 같다.

:quit

다시 들어가서 아래 명령어를 입력 해 본다.

데이터셋을 해당 이름(SmartCar_Master_Over18)으로 저장 하는 문구이다.

나갔다 왔으니 위의 선언을 다시 해준다.

val smartcar_master_df = spark.sqlContext.sql("select * from SmartCar_Master where age >= 18")
smartcar_master_df.write.saveAsTable("SmartCar_Master_Over18")

Hive 에디터에서 데이터를 조회 해보자.

select *
  from SmartCar_Master_Over18
limit 10;

'빅데이터' 카테고리의 다른 글

[빅데이터] Oozie Workflow (0)	2024.06.17
[빅데이터] Oozie 사용 해 보기. (4)	2024.06.14
[빅데이터] 문제 풀이 Hive 를 이용한 데이터 탐색 (0)	2024.06.14
[빅데이터] Hue 에서 Hive 명령문 사용. (1)	2024.06.13
[빅데이터] Cloudera에 Hive, Oozie, Hue, Spark 설치 (0)	2024.06.13

현재글[빅데이터] 스파크를 이용한 데이터 셋 탐색

개발 일지

[빅데이터] 스파크를 이용한 데이터 셋 탐색

'빅데이터' 카테고리의 다른 글

'빅데이터'의 다른글

티스토리툴바

[빅데이터] 스파크를 이용한 데이터 셋 탐색

'빅데이터' 카테고리의 다른 글

'빅데이터'의 다른글

관련글

티스토리툴바