Apache Hive - 쿼리 퍼포먼스를 높이는 방법
·
DataPipeline/Hive
[ 1. Tez Engine을 사용 ] Apache Tez는 데이터 처리 작업의 복합 비순환 방향 그래프(DAG)를 생성하는 프레임 워크이다. 하둡의 YARN에 의해 매니징되면, 맵리듀스의 능력을 유지함과 동시에 대용량데이터 처리 속도를 높힌다. 하이브 엔진으로 Tez를 사용하여 쿼리속도를 높힌다. * hive.execution.engine=tez; [ 2. 백터화 (Vectorization) ] 백터화는 작업시 단일 행을 가져오지 않고 한번의 작업으로 1,024개의 행을 가져온다. filter, join, aggregation과 같은 작업의 성능을 향상시킨다. * hive.vectorized.execution.enabled=true; * hive.vectorized.execution.reduce.ena..
Apache Phoenix - 설치 [ Install in cloudera manager ]
·
DataPipeline/Phoenix
[ 설치 ] parcel 설정페이지(우측상단의 선물함아이콘)로 들어가 아래 이미지와 같이 https://archive.cloudera.com/phoenix/6.2.0/parcels/ https://archive.cloudera.com/phoenix/6.2.0/csd/ 를 추가한다. "변경내용저장" 후 "새 Parcel확인(Check for New Parcels)"를 클릭 후 생기는 PHOENIX parcel을 다운로드 한다. 다운로드 이후에는 아래 이미지와 같이 배포된다. ls /opt/cloudera/csd 로 PHOENIX-VERSION.jar 파일이 있는지 확인한다. [ 수동설치 ] https://archive.cloudera.com/phoenix/6.2.0/csd/ PHOENIX-1.0.jar h..
Apache Nifi - 설치 [ Install in cloudera manager ]
·
DataPipeline/Nifi
[ CFM배포를 설치 ] $ cd /opt/cloudera/csd $ wget http://archive.cloudera.com/CFM/csd/1.0.0.0/NIFI-1.9.0.1.0.0.0-90.jar $ wget http://archive.cloudera.com/CFM/csd/1.0.0.0/NIFICA-1.9.0.1.0.0.0-90.jar $ wget http://archive.cloudera.com/CFM/csd/1.0.0.0/NIFIREGISTRY-0.3.0.1.0.0.0-90.jar $ chown cloudera-scm:cloudera-scm NIFI*.jar $ chmod 644 NIFI*.jar $ service cloudera-scm-server restart [ 클라우데라 매니저 서비스 ..
Apache Kafka - server.properties 환경설정
·
DataPipeline/Kafka
Kafka 매개변수는 표 : https://www.ibm.com/support/knowledgecenter/ko/SSPFMY_1.3.5/com.ibm.scala.doc/config/iwa_cnf_scldc_kfk_prp_exmpl_c.html $ vi /usr/local/kafka/config/server.properties [ Server Basics ] broker.id=1 : 브로커를 구분하기위한 ID [ Socket Server Settings ] listeners=PLAINTEXT://:9092 : 카프카 소켓서버가 수신하는 주소. 기본포트는 9092 num.network.threads=3 : 네트워크 요청을 처리하는 데 사용되는 스레드 수 num.io.threads=8 : 입력 및 출력 조작에..
Apache Kafka - 설치
·
DataPipeline/Kafka
환경 가상머신 : Virtualbox 6.2.12 운영체제 : CentOS-7-x86_64-Everything-2003.ios 3대설치 각 host는 hadoop01, hadoop02, hadoop03으로 지정 1. virtual machine에 centOS-7을 올리고 설치 2. Java설치 카프카를 설치하기 전 주키퍼(zookeeper)를 설치해야 하는데, 주키퍼는 자바(java)애플리케이션이기에 먼저 설치해준다. $ yum -y install java-1.8.0-openjdb 3. 호스트 이름변경 vi /etc/hosts를 열어 111.11.11.1111 hadoop01 222.22.22.2222 hadoop02 333.33.33.3333 hadoop03 을 추가한다. ( 3대 서버 모두 ) 4. ..
Apache Kafka - 개요 및 아키텍처
·
DataPipeline/Kafka
카프카는 이벤트스크리밍(Event Streaming)기반 메세징시스템(Messaging System)으로 실시간 데이터를 저장, 조작, 다른목적지로 배치작업 등을 하기에 용이하다. 메세징시스템이란? 메세징시스템은 한 어플리케이션에서 다른 어플리케이션으로 데이터를 전송하는 역할을 한다. 분산메세징시스템은 메세지 큐를 기반으로 어플리케이션과 메세지 큐 사이에 비동기적(Asynchronously)으로 작동한다. 보통 2개의 타입의 메세징패턴이 제공되는데 포인트 투 포인트(point-point)와 게시구독(pub-sub)시스템이다. 포인트 투 포인트 메세징시스템(point to point messaging system) 대표적인 예로 주문처리시스템을 생각하면 된다. 한 명 이상의 소비자가 큐에 있는 메세지를 소..
Apache Sqoop - 설치[ Install ]
·
DataPipeline/Sqoop
[ 개요 ] 전 프로젝트에서 mysql데이터를 hive table에 주기적으로 input하는 기능이 필요했다. 이런 상황에서 Data-pip-line을 구성하기 좋고 적용하기도 쉬운 Sqoop에 대해 알아보자. 스쿱(Sqoop)은 관계형데이터베이스(Ex. Mysql,MariaDB)와 아파치 하둡간의 데이터 인아웃을 위한 CLI(Command Line Interface) 어플리케이션이다. RDB에서 데이터를 가져와 맵리듀스작업을 할 수 있고 그 반대도 가능하다. 장애컨트롤 뿐만 아니라 병렬처리까지 가능한 것이 장점이다. [ 아키텍처 ] 중간에 위치한 Sqoop Tool은 Java로 프로그래밍되어 SQL to Hadoop, Hadoop to SQL 변환을 자유롭게 해준다. Import : RDBMS에서 개별..
wave35
'DataPipeline' 카테고리의 글 목록 (11 Page)