Apache Hive - 파일압축 (File Compression)
·
DataPipeline/Hive
Hive는 TextFile, SequenceFile, RcFile, OrcFile, ParquetFile 포맷을 지원한다.테이블의 파일형식을 지원하는 방법은 아래와 같다.1. CREATE TABLE … STORE AS 2. ALTER TABLE … [PARTITION partition_spec] SET FILEFORMAT 3. SET hive.default.fileformat= (the default fileformat for table)  [1] File CompressHive의 압축은 Full압축이 아닌 중간파일압축(Intermediate compression)을 통해매퍼와 리듀스 사이의 데이터전송량을 현저하게 줄인다.Hive가 생산한 중간파일을 여러 맵리듀스 작업간에 압축하려면SET hive.exe..
Apache Hive - CDH Hive 환경설정 최적화
·
DataPipeline/Hive
[ 사전 준비 ] 1. 모든 설정은 CDH->Yarn / Hive->구성에서 값을 수정한다. 2. spark executor는 하나의 yarn container가지며, spark task는 하나의 core(yarn vcore)에서 실행된다.하나의 spark executor가 여러개의 spark task를 동시에 부릴 수 있다.  3. 하이브 엔진으로 spark를 사용하기 위해선 위 설정을 해주어야 한다. Default는 MapReduce이다.  [ 예제 환경 ]예시로 실행되는 환경은 40개의 host가 있는 YARN클러스터이며,각 호스트는 32개의 Core와 120GB메모리가 할당되어있다고 가정한다. [ YARN Configuration ] 1. yarn.nodemanager.resource.cpu-vc..
Apache Hive - 쿼리 퍼포먼스를 높이는 방법
·
DataPipeline/Hive
[ 1. Tez Engine을 사용 ] Apache Tez는 데이터 처리 작업의 복합 비순환 방향 그래프(DAG)를 생성하는 프레임 워크이다. 하둡의 YARN에 의해 매니징되면, 맵리듀스의 능력을 유지함과 동시에 대용량데이터 처리 속도를 높힌다. 하이브 엔진으로 Tez를 사용하여 쿼리속도를 높힌다. * hive.execution.engine=tez; [ 2. 백터화 (Vectorization) ] 백터화는 작업시 단일 행을 가져오지 않고 한번의 작업으로 1,024개의 행을 가져온다. filter, join, aggregation과 같은 작업의 성능을 향상시킨다. * hive.vectorized.execution.enabled=true; * hive.vectorized.execution.reduce.ena..
wave35
'DataPipeline/Hive' 카테고리의 글 목록 (2 Page)