
Apache Hive - 쿼리 퍼포먼스를 높이는 방법
·
DataPipeline/Hive
[ 1. Tez Engine을 사용 ] Apache Tez는 데이터 처리 작업의 복합 비순환 방향 그래프(DAG)를 생성하는 프레임 워크이다. 하둡의 YARN에 의해 매니징되면, 맵리듀스의 능력을 유지함과 동시에 대용량데이터 처리 속도를 높힌다. 하이브 엔진으로 Tez를 사용하여 쿼리속도를 높힌다. * hive.execution.engine=tez; [ 2. 백터화 (Vectorization) ] 백터화는 작업시 단일 행을 가져오지 않고 한번의 작업으로 1,024개의 행을 가져온다. filter, join, aggregation과 같은 작업의 성능을 향상시킨다. * hive.vectorized.execution.enabled=true; * hive.vectorized.execution.reduce.ena..