Apache Hive - 조인 (Join)
·
DataPipeline/Hive
[ 쿼리시 테이블 배치 ]테이블 간의 Join은 부하가 매우크므로 스키마설계시 최대한 Join을 하지 않도록 구성해야 한다.하이브에서 조인 사용시 왼쪽에서 오른쪽 FROM절 순서로 쿼리가 실행되므로일반적으로 가장 데이터가 큰 테이블을 맨 오른쪽(마지막)에 실행되도록 쿼리를 짠다. 작은 테이블이 먼저 처리되면, 큰 데이터와의 조인이 더 효율적으로 이루어지는 이유는Mapper에서 작은 테이블을 먼저 읽고 메모리에 올려둔 뒤, 큰 테이블의 데이터와 비교하기 때문이다.큰 데이터는 메모리에 적재되지 않고 디스크 기반 스트리밍 방식으로 처리된다.따라서 큰 테이블을 오른쪽에 배치하면 성능 최적화가 가능하다. * HUE이용시 Error while processing statement: FAILED: Execution ..