빅데이터

[빅데이터] Impala 사용해 보기.

allempty_sheep 2024. 6. 18. 12:11
반응형
🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.

🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다.

 

❓ 임팔라 란?

🥚 아파치 하둡 위에서 실행되는 SQL 쿼리 엔진.

🥚 하이브에 비하여 임팔라는 속도가 빠르다. 

 

◼ 아래 데이터를 임팔라와 하이브에 서 각각 실행 시켜 보자.

select *
  from managed_smartcar_symptom_info
 where biz_date = '20240615';

임팔라 1.81 초
하이브 1분 41초

 

 

◼ 운행 지역을 살펴보자

select T2.area_number, 
       T2.car_number, T2.speed_avg
from ( select T1.area_number, 
              T1.car_number, 
              T1.speed_avg,
              rank() over(partition by                     T1.area_number order by                     T1.speed_avg desc) as ranking
        from ( select area_number, 
                      car_number,
                      avg(cast(speed as int)) as                         speed_avg
                 from  managed_smartcar_drive_info
                 group by area_number, car_number
             ) T1
) T2
where ranking = 1

 

해당 쿼리는 지역별 평균 속도가 높은 차량을 출력한다.