빅데이터 27

[빅데이터] Hue 에서 Hive 명령문 사용.

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. 이제 리눅스 서버(server02) 로 이동하여 데이터를 생산하여 보자.cd /home/pilot-pjt/working# 오늘 날짜로 운전자 100개에 대한 데이터를 생성. 백그라운드에서 실행.java -cp bigdata.smartcar.loggen-1.0.jar com.wikibook.bigdata.smartcar.loggen.DriverLogMain 20240613 100 &# 오늘 날짜로 차 로그 100개에 대한 데이터를 생성. 백그라운드 실행.java -cp bigdata.smartcar.loggen-..

빅데이터 2024.06.13

[빅데이터] Cloudera에 Hive, Oozie, Hue, Spark 설치

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. Cloudera Manager에서 Hive를 추가 해 줄 것이다.클러스터 - 서비스 추가 아래와 같이 설정 해준다. server02 만 선택 WebHCat Server 는 선택하지 않는다. 내장 데이터베이스를 사용할 것인데 암호를 복사해서 기억 해두자 ( Fe4uMp4Vu7 ) 에러가 날 시 Resume 버튼을 한번 눌러보고 그래도 안된다면 다음과 같이 진행한다.클라우데라 - HBase - RegionServer 재시작 yarn 도 재시작 해보자 이후 다시 추가를 하려고 하면 다음과 같이 잘 되는 것을 볼 수 ..

빅데이터 2024.06.13

[빅데이터] 복습 밑 STS 로 jar 파일 만들기

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. 이때까지 한 내용 요약. flume (데이터 수집) -(producer 동작)>kafka (boroker 라는 물리적 서버 안의 topic 에 저장, 카프카는 buffer 의 기능을 함) -(consumer 동작)>HBase(대용량), Redis(실시간) 로 데이터가 각각 들어감 저번 글 내용 마지막을 복습 해보자.hbase shell 클라우데라 매니저 - HBase 구성 - timeout 검색 - RPC 시간 제한을 늘려준다. (20분)  운행 지역 정보를 가져와서 알아보자scan 'DriverCarInfo'..

빅데이터 2024.06.13

[빅데이터] 실시간 적재 기능 구현 HBase, Redis

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. HBase 테이블 생성DriverCarInfo 라는 이름의 테이블을 생성 할 것이다.hbase org.apache.hadoop.hbase.util.RegionSplitter DriverCarInfo HexStringSplit -c 2 -f cf1 CREATE, Table Name: default:DeiverCarInfo 라는 명령어가 보일 것이다.테이블 확인은 16010 포트에서 조회 할 수 있다. 파일을 하나 업로드 해 준다.cd /home/pilot-pjt/working  스톰을 이용하여 배포storm ja..

빅데이터 2024.06.12

[빅데이터] Storm 설치 및 사용법

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. Storm 도 Redis 와 같이 클라우데라에서 지원을 해주지 않기 때문에 따로 설치 하여야 한다.마찬가지로 Server02 에 설치cd /home/pilot-pjtwget http://archive.apache.org/dist/storm/apache-storm-1.2.3/apache-storm-1.2.3.tar.gz 압축을 해제 해 준다.tar -xvf apache-storm-1.2.3.tar.gz 심볼릭 링크를 생성 해 준다.ln -s apache-storm-1.2.3 storm conf 폴더로 이동해서 s..

빅데이터 2024.06.12

[빅데이터] Redis 설치 및 사용법

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. 실시간 데이터 추적을 위해서 Redis를 설치 해 줄것이다.Redis는 클라우데라에서 지원을 하지 않는다.Server02에서 설치 해주자.echo "http://vault.centos.org/6.10/os/x86_64/" > /var/cache/yum/x86_64/6/base/mirrorlist.txtecho "http://vault.centos.org/6.10/extras/x86_64/" > /var/cache/yum/x86_64/6/extras/mirrorlist.txtecho "http://vault.ce..

빅데이터 2024.06.12

[빅데이터] HBase 설치 및 사용 방법

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. http://server01.hadoop.com:9870/설치한 하둡 HDFS 를 URL로 접속. (클라우데라 매니저를 설치해서 UI를 사용하여 볼 수 있다.)  이전 글에서는 flume(수집) -> kafka -> kafka(topic) 으로 데이터를 보내는것을 진행 해 보았으며이번 글에서는 kafka -> Consumer ->HDFS(or Redis) 로 데이터를 보내는 것을 진행 해 볼 것이다. 클라우데라에서 다음 내용을 변경한다.flume - 상태 - 구설 파일에서 다음의 내요으로 바꾸어 줄 것이다.Sm..

빅데이터 2024.06.12

[빅데이터] 하둡이란? namenode, balancer, yarn, zookeeper

하둡(Hadoop)   하둡은 대용량 데이터 처리를 위한 오픈 소스 분산 처리 프레임워크입니다.   Apache 하둡 프로젝트에서 개발되었으며, 대규모 데이터를 안정적으로 처리하고 저장할 수 있는 플랫폼으로 널리 사용됩니다.   하둡의 주요 구성 요소는 다음과 같습니다   Hadoop Distributed File System (HDFS)대용량 파일을 저장하기 위한 분산 파일 시스템으로, 여러 대의 컴퓨터에 데이터를 분산하여 저장합니다.   MapReduce분산 데이터 처리를 위한 프로그래밍 모델로, 대규모 데이터를 여러 단계로 나누어 처리하고 결과를 병합합니다.   YARN (Yet Another Resource Negotiator)클러스터 자원 관리 시스템으로, 하둡 클러스터의 자원을 효율적으로 관..

빅데이터 2024.06.11