DataPipeline/Sqoop

Apache Sqoop - 구분자 설정 ( Hive )

wave35 2023. 3. 22. 21:41

 

Sqoop의  Default 구분자는 ',' 이며,

RDB 데이터를 입력받을 시 Column의 Text데이터가

"안녕하세요, 저는 어쩌고, ..."

와 같은 ','가 포함되었다면 구분자를 변경해야 한다.

아래 설정은 \t (탭)으로 구분자를 설정하며

Oozie XML -> Sqoop -> Hive Table에 넣는 과정을 담는다.

 

 

[ Oozie XML ]

아래 설정을 추가 한다.

<arg>--fields-terminated-by</arg>

<arg>"\t"</arg>

 

 

[ Hive Table Create ]

생성시 Delimited fields를 정의한다. ( 또는 업데이트 )

CREATE TABLE temp.table_temp

(

    id BIGINT,

    name VARCHAR(30),

    pay DECIMAL(10,2)

    tag VARCHAR(200)

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

STORED AS TEXTFILE;

 

 

Hive Table 결과 조회