'DataPipeline' 카테고리의 글 목록 (11 Page)

Apache Hive - CDH Hive 환경설정 최적화

2023.03.15·

DataPipeline/Hive

[ 사전 준비 ] 1. 모든 설정은 CDH->Yarn / Hive->구성에서 값을 수정한다. 2. spark executor는 하나의 yarn container가지며, spark task는 하나의 core(yarn vcore)에서 실행된다.하나의 spark executor가 여러개의 spark task를 동시에 부릴 수 있다. 3. 하이브 엔진으로 spark를 사용하기 위해선 위 설정을 해주어야 한다. Default는 MapReduce이다. [ 예제 환경 ]예시로 실행되는 환경은 40개의 host가 있는 YARN클러스터이며,각 호스트는 32개의 Core와 120GB메모리가 할당되어있다고 가정한다. [ YARN Configuration ] 1. yarn.nodemanager.resource.cpu-vc..

Apache Sqoop - import [2]

2023.03.15·

DataPipeline/Sqoop

1. 최신행 Import 스쿱은 최신행만 가져올 수 있는 기능을 제공한다. 예를 들어 2020-10-14일 이후의 열들을 가져오고 싶을 경우 사용될 수 있다. --check-column (col) 가져올 행을 결정할 기준 열을 지정 (CHAR/NCHAR/VARCHAR/VARNCHAR/ LONGVARCHAR/LONGNVARCHAR 타입은 기준열로 지정불가) --incremental (mode) 가져올 행을 결정하는 방법을 지정 --last-value (value) 가져올 열의 값에 대한 최대값을 지정 --incremental 인자는 두가지 타입을 지정할 수 있는데 하나는 append와 lastmodified이다. [append] append사용시 --check-column을 지정하고(예시에선 ID로 지정)..

Apache Sqoop - import

2023.03.15·

DataPipeline/Sqoop

[ Sqoop-Import ] 1. 일반인수 (Common arguments)--connect : JDBC 접속URI 지정--connect-manager : 사용할 연결 관리자--driver : JDBC driver class 지정--hadoop-mapred-home : Override $HADOOP_MAPRED_HOME--help : 도움말--password-file : 인증관련 파일 경로-P : 콘솔에서 비밀번호를 읽을 때--password : 인증패스워드 SET--username : 유저이름 SET--verbose : working시 더 많은 정보 출력--relaxed-isolation : 매퍼에 대해 커밋되지 않은 읽기 데이터를 가져온다. HDFS에 저장되기전 데이터를 컨트롤하기 위한 ..

Apache Sqoop - Tools

2023.03.15·

DataPipeline/Sqoop

[ 1. Sqoop Tools ] 스쿱은 도구모음이다. 커맨드라인에 커맨드와 인자를 입력하여 사용한다. 다른 프로그램없이 자체 스쿱소스로 컴파일 될 경우, bin/sqoop 프로그램을 실행하여 sqoop을 사용할 수 있다. 스쿱 패키지 배포(apache bigtop과 함께 제공된 RPM등) 사용자는 프로그램을 /usr/bin/sqoop으로 설치하게 된다. Sqoop의 사용설명서는 'help'로 볼 수 있다. $sqoop help Available commands: codegen Generate code to interact with database records create-hive-table Import a table definition into Hive eval Evaluate a SQL statem..

Apache Hive - 쿼리 퍼포먼스를 높이는 방법

2023.03.15·

DataPipeline/Hive

[ 1. Tez Engine을 사용 ] Apache Tez는 데이터 처리 작업의 복합 비순환 방향 그래프(DAG)를 생성하는 프레임 워크이다. 하둡의 YARN에 의해 매니징되면, 맵리듀스의 능력을 유지함과 동시에 대용량데이터 처리 속도를 높힌다. 하이브 엔진으로 Tez를 사용하여 쿼리속도를 높힌다. * hive.execution.engine=tez; [ 2. 백터화 (Vectorization) ] 백터화는 작업시 단일 행을 가져오지 않고 한번의 작업으로 1,024개의 행을 가져온다. filter, join, aggregation과 같은 작업의 성능을 향상시킨다. * hive.vectorized.execution.enabled=true; * hive.vectorized.execution.reduce.ena..

Apache Phoenix - 설치 [ Install in cloudera manager ]

2023.03.14·

DataPipeline/Phoenix

[ 설치 ] parcel 설정페이지(우측상단의 선물함아이콘)로 들어가 아래 이미지와 같이 https://archive.cloudera.com/phoenix/6.2.0/parcels/ https://archive.cloudera.com/phoenix/6.2.0/csd/ 를 추가한다. "변경내용저장" 후 "새 Parcel확인(Check for New Parcels)"를 클릭 후 생기는 PHOENIX parcel을 다운로드 한다. 다운로드 이후에는 아래 이미지와 같이 배포된다. ls /opt/cloudera/csd 로 PHOENIX-VERSION.jar 파일이 있는지 확인한다. [ 수동설치 ] https://archive.cloudera.com/phoenix/6.2.0/csd/ PHOENIX-1.0.jar h..

Apache Nifi - 설치 [ Install in cloudera manager ]

2023.03.14·

DataPipeline/Nifi

[ CFM배포를 설치 ] $ cd /opt/cloudera/csd $ wget http://archive.cloudera.com/CFM/csd/1.0.0.0/NIFI-1.9.0.1.0.0.0-90.jar $ wget http://archive.cloudera.com/CFM/csd/1.0.0.0/NIFICA-1.9.0.1.0.0.0-90.jar $ wget http://archive.cloudera.com/CFM/csd/1.0.0.0/NIFIREGISTRY-0.3.0.1.0.0.0-90.jar $ chown cloudera-scm:cloudera-scm NIFI*.jar $ chmod 644 NIFI*.jar $ service cloudera-scm-server restart [ 클라우데라 매니저 서비스 ..

Apache Kafka - server.properties 환경설정

2023.03.14·

DataPipeline/Kafka

Kafka 매개변수는 표 : https://www.ibm.com/support/knowledgecenter/ko/SSPFMY_1.3.5/com.ibm.scala.doc/config/iwa_cnf_scldc_kfk_prp_exmpl_c.html $ vi /usr/local/kafka/config/server.properties [ Server Basics ] broker.id=1 : 브로커를 구분하기위한 ID [ Socket Server Settings ] listeners=PLAINTEXT://:9092 : 카프카 소켓서버가 수신하는 주소. 기본포트는 9092 num.network.threads=3 : 네트워크 요청을 처리하는 데 사용되는 스레드 수 num.io.threads=8 : 입력 및 출력 조작에..

티스토리툴바