Apache Sqoop - 구분자 설정 ( Hive )
·
DataPipeline/Sqoop
Sqoop의 Default 구분자는 ',' 이며, RDB 데이터를 입력받을 시 Column의 Text데이터가 "안녕하세요, 저는 어쩌고, ..." 와 같은 ','가 포함되었다면 구분자를 변경해야 한다. 아래 설정은 \t (탭)으로 구분자를 설정하며 Oozie XML -> Sqoop -> Hive Table에 넣는 과정을 담는다. [ Oozie XML ] 아래 설정을 추가 한다. --fields-terminated-by "\t" [ Hive Table Create ] 생성시 Delimited fields를 정의한다. ( 또는 업데이트 ) CREATE TABLE temp.table_temp ( id BIGINT, name VARCHAR(30), pay DECIMAL(10,2) tag VARCHAR(200) ..
Apache Sqoop - import [2]
·
DataPipeline/Sqoop
1. 최신행 Import 스쿱은 최신행만 가져올 수 있는 기능을 제공한다. 예를 들어 2020-10-14일 이후의 열들을 가져오고 싶을 경우 사용될 수 있다. --check-column (col) 가져올 행을 결정할 기준 열을 지정 (CHAR/NCHAR/VARCHAR/VARNCHAR/ LONGVARCHAR/LONGNVARCHAR 타입은 기준열로 지정불가) --incremental (mode) 가져올 행을 결정하는 방법을 지정 --last-value (value) 가져올 열의 값에 대한 최대값을 지정 --incremental 인자는 두가지 타입을 지정할 수 있는데 하나는 append와 lastmodified이다. [append] append사용시 --check-column을 지정하고(예시에선 ID로 지정)..
Apache Sqoop - import
·
DataPipeline/Sqoop
[ Sqoop-Import ] 1. 일반인수 (Common arguments)--connect : JDBC 접속URI 지정--connect-manager : 사용할 연결 관리자--driver : JDBC driver class 지정--hadoop-mapred-home : Override $HADOOP_MAPRED_HOME--help : 도움말--password-file : 인증관련 파일 경로-P : 콘솔에서 비밀번호를 읽을 때--password : 인증패스워드 SET--username : 유저이름 SET--verbose : working시 더 많은 정보 출력--relaxed-isolation : 매퍼에 대해 커밋되지 않은 읽기 데이터를 가져온다. HDFS에 저장되기전 데이터를 컨트롤하기 위한 ..
Apache Sqoop - Tools
·
DataPipeline/Sqoop
[ 1. Sqoop Tools ] 스쿱은 도구모음이다. 커맨드라인에 커맨드와 인자를 입력하여 사용한다. 다른 프로그램없이 자체 스쿱소스로 컴파일 될 경우, bin/sqoop 프로그램을 실행하여 sqoop을 사용할 수 있다. 스쿱 패키지 배포(apache bigtop과 함께 제공된 RPM등) 사용자는 프로그램을 /usr/bin/sqoop으로 설치하게 된다. Sqoop의 사용설명서는 'help'로 볼 수 있다. $sqoop help Available commands: codegen Generate code to interact with database records create-hive-table Import a table definition into Hive eval Evaluate a SQL statem..
Apache Sqoop - 설치[ Install ]
·
DataPipeline/Sqoop
[ 개요 ] 전 프로젝트에서 mysql데이터를 hive table에 주기적으로 input하는 기능이 필요했다. 이런 상황에서 Data-pip-line을 구성하기 좋고 적용하기도 쉬운 Sqoop에 대해 알아보자. 스쿱(Sqoop)은 관계형데이터베이스(Ex. Mysql,MariaDB)와 아파치 하둡간의 데이터 인아웃을 위한 CLI(Command Line Interface) 어플리케이션이다. RDB에서 데이터를 가져와 맵리듀스작업을 할 수 있고 그 반대도 가능하다. 장애컨트롤 뿐만 아니라 병렬처리까지 가능한 것이 장점이다. [ 아키텍처 ] 중간에 위치한 Sqoop Tool은 Java로 프로그래밍되어 SQL to Hadoop, Hadoop to SQL 변환을 자유롭게 해준다. Import : RDBMS에서 개별..
wave35
'sqoop' 태그의 글 목록