하둡 5

[빅데이터] 군집 분석

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다.  ◼ 임팔라에서 다음을 실행 해 본다. 해당 데이터들을 이용하여 군집 분석을 진행 할 거이다. (Impala에서 실행) select * from smartcar_master limit 100; ◼ 해당 데이터들을 가공하여 파일을 만들어 주자. (Hive 에디터에서 실행)insert overwrite local directory '/home/pilot-pjt/mahout-data/clustering/input'ROW FORMAT DELIMITEDFIELDS TERMINATED BY ' 'select car_..

빅데이터 2024.06.19

[빅데이터] 하둡이란? namenode, balancer, yarn, zookeeper

하둡(Hadoop)   하둡은 대용량 데이터 처리를 위한 오픈 소스 분산 처리 프레임워크입니다.   Apache 하둡 프로젝트에서 개발되었으며, 대규모 데이터를 안정적으로 처리하고 저장할 수 있는 플랫폼으로 널리 사용됩니다.   하둡의 주요 구성 요소는 다음과 같습니다   Hadoop Distributed File System (HDFS)대용량 파일을 저장하기 위한 분산 파일 시스템으로, 여러 대의 컴퓨터에 데이터를 분산하여 저장합니다.   MapReduce분산 데이터 처리를 위한 프로그래밍 모델로, 대규모 데이터를 여러 단계로 나누어 처리하고 결과를 병합합니다.   YARN (Yet Another Resource Negotiator)클러스터 자원 관리 시스템으로, 하둡 클러스터의 자원을 효율적으로 관..

빅데이터 2024.06.11

[빅데이터] 카프카(kafka) 설치 및 사용

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. 저번 플럼 설치에 이어 카프카를 추가 설치 해 줄 것이다.클러스터 서비스 추가에 들어가 카프카를 선택 해 준다.   완료 되면 카프카가 설치 된 것을 확인 할 수 있다.  카프카 - 구성으로 들어가서 data retention 을 입력한다.15분으로 수정 후 변경 내역을 저장한다.  flume - 구성  구성 파일의 내용을 모두 삭제 파일의 내용을 복사하여 구성 파일 내용에 넣어준다. 변경 내용을 저장한후 kafka topic을 생성 해보자. server02 에서 실행한다.서버 파일에 이미 토픽이 있다고 뜰 것..

빅데이터 2024.06.11

[빅데이터] 데이터 파일 업로드 및 시스템 검사.

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. 먼저 윈도우에 있는 파일을 HDFS 에 업로드 할 것이다.아래 받은 두가지 파일을 이용한다.  MobaXterm 의 server02 에서 다음 내용을 수행한다.1. Follow terminal folder 클릭2. 아래 위치로 이동.cd /home/bigdata 3. Sample.txt 파일을 넣어준다. 4. Sample.txt 파일을 /tmp 디렉토리에 저장hdfs dfs -put Sample.txt /tmp 잘 들어갔는지 확인 해 보자.hdfs dfs ls /tmp위와 같이 Sample.txt 가 있으면 된..

빅데이터 2024.06.11

[빅데이터] Linux MobaXterm 외부 접속 및 Cloudera Manager 접속

🎁 본 글은 실무로 '배우는 빅데이터기술' 책을 따라해보고 실행하여보는 과정을 기록한 글이다.🎁 빅데이터 처리의 전체적인 흐름과 과정을 학습하기 쉬우며 빅데이터에 관심있는 사람들에게 추천한다. MobaXterm 을 접속 후 왼쪽 위 Session을 클릭 해준다.SSH 란으로 들어가서 host 입력(주소)Specify username 체크(유저 이름 : root)Port : 22 아래와 같이 뜬다면 접속이 완료 된 것이다. Cloudera Manager 접속 https://server01.hadoop.com:7180/ 다음 주소로 접속하여 클라우데라 매니저에 접속기본 아이디 비밀번호는 다음과 같다.아이디 : admin비밀번호 : admin  설정을 몇가지 해 줄 것이다.HDFS - 구성 2로 변경 후 ..

빅데이터 2024.06.11