Zookeeper - CLI명령어와 ACL
·
DataPipeline/Zookeeper
[ CLI 명령어 ]zookeeper/bin/zkCli.sh에서 CLI 접속create /znode "first-app"ls /znodeget /znodeset /znode "date-updated"rmr /znode  [ ACL ]znode접근시 Authentication is not valid : /znode-ex 라는 메세지가 뜬다면인증권한을 확인할 필요가 있다. ACL(Action Control List)은 znode에 액세스 하기위한 인증제어이며 5가지의 종류로 구분된다.ACL 권한 종료CREATE - 생성 : ZNode의 자식 노드를 생성할 수 있는 권한READ - 읽기 : ZNode의 데이터를 읽고 자식 노드를 나열할 수 있는 권한WRITE - 쓰기 : ZNode의 데이터를 설정하거나 수정할..
Apache Kafka - 토픽삭제가 안되는 경우
·
DataPipeline/Kafka
[ 토픽삭제 안되는 경우 ] server.properties 파일의 delete.topic.enable=true임에도 토픽이 삭제되지 않는경우 1. 카프카 dir.log파일과 관련 주키퍼로그 파일 삭제 2. 카프카 브로커를 재시작한다. 참조 : https://stackoverflow.com/questions/23976670/when-how-does-a-topic-marked-for-deletion-get-finally-removed : https://stackoverflow.com/questions/44564606/how-can-i-remove-kafka-topics-marked-for-deletion
Apache Phoenix - CDH 피닉스 초기 설정 [Init Configuration]
·
DataPipeline/Phoenix
[ CDH Phoenix 초기설정 ] 1. HBase 서비스 탭 2. hbase-site.xml에 대한 HBase 서비스 고급 구성 스니펫(안전 밸브) 검색 [1] Secondary Index 피닉스의 Secondary Index를 사용하기 위해 설정값 추가 이름 : hbase.regionserver.wal.codec 값 : org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec 피닉스 인덱싱에 관한 참조 : https://phoenix.apache.org/secondary_indexing.html [2] 사용자정의 함수 사용 사용자 정의함수를 사용하도록 다음 속성을 설정 이름 : phoenix.functions.allowUserDefinedFunct..
Apache Nifi - 카프카 데이터 분산처리 ( Distribute Kafka Data )
·
DataPipeline/Nifi
1. Nifi Processor MergeContent MergeContent프로세서를 이용해 Input processor(ex.Kafka, File)에서 들어오는 데이터를적절한 크기로 Merge한 다음에 다음 단계로 넘겨주는 Flow를 기대했다.그러나 MergeContent는 이미 받은 데이터를 복제한 후 병합하는 형식으로,기대했던 결과를 가져오지는 못했다. 예를 들어 100의 데이터가 들어온다면 100개의 데이터를 차곡차곡 쌓았다가하나의 데이터로 병합하여 결국 1개의 데이터가 들어와야 하는것을 결과로 예상했지만,MergeContent는 100개의 데이터를 일단 Nifi 저장 후,그 데이터들을 병합한 데이터셋 복제복을 만들어 다음 프로세스로 넘겨준다.결국 병합된 1개의 데이터셋을 전달하지만, 이중 저장..
Apache Hive - Hive to Phoenix Table
·
DataPipeline/Hive
[ 사전셋팅 (Prerequisites) ] phoenix-version-hive.jar 파일을 찾고, 해당 하이브 설정파일에 value를 추가하여 하이브 맵리듀스 잡이 jar파일 사용하게 한다. 1) hive-env.sh : HIVE_AUX_JARS_PATH= 2) hive-site.xml hive.aux.jars.path file:// [ 테이블 생성 ] jar파일에 있는 storage Handler는 internal과 external 하이브테이블 생성을 지원한다. 1) Create Internal Table Hive에서 테이블생성시 Phoenix에도 자동으로 테이블 생성되며, Hive나 Hue에서 데이터 조회와 같은 쿼리가 가능하다. Internal Phoenix테이블은 Hive테이블 lifecyc..
Apache Kafka - 재시작시 meta.propertie 에러
·
DataPipeline/Kafka
에러메세지 ] ERROR Fatal error during KafkaServer startup. Prepare to shutdown (kafka.server.KafkaServer) kafka.common.InconsistentClusterIdException: The Cluster ID lTeGi4hnRaKFOHhVMQnfEg doesn't match stored clusterId Some(eaVbu41vRfSi-XzD7DxMog) in meta.properties. The broker is trying to join the wrong cluster. Configured zookeeper.connect may be wrong. at kafka.server.KafkaServer.startup(KafkaSe..
Apache Nifi - Queued 설정
·
DataPipeline/Nifi
Queued 우측클릭->구성설정 버튼을 클릭하면 아래와 같이 설정할 수 있는 창이나온다.  FlowFile ExpirationFlowFile Expiration은 특정기간에 쌓인 데이터들 중 처리할 수 없는 데이터를 자동으로 제거할 수 있는 개념이다.예를 들어 큐의 데이터 볼륨이 초과할 것으로 예상됬을 때,유통기한을 우선 순위자와 함께 사용하여 우선 순위가 가장 높은 데이터를 먼저 처리한 후일정 기간(예: 1시간) 내에 처리할 수 없는 것은 모두 삭제할 수 있다.  만료 기간은 데이터가 NiFi 인스턴스에 들어간 시간을 기준으로 한다.즉, 특정 연결의 FlowFile Expiration가 '1시간'으로 설정되어 있고NiFi 인스턴스에 1시간 동안 있었던 파일이 해당 연결에 도달하면 만료된다.  기본값 0..
Apache Hive - Json 컨트롤
·
DataPipeline/Hive
Hive에서 Json파일 컨트롤 1. get_json_objecthive 0.7.0 이하로는 아래와 같이 사용한다. [ 데이터 ] [ 쿼리문 ]SELECT get_json_object(StudentsOneLine, '$.StudentDetails.FirstName'), get_json_object(StudentsOneLine, '$.StudentDetails.LastName')FROM StudentsOneLine;  2. json_tuple 사용아래와 같은 json 파일이 있다.{ "memberId":817090,"campaigns": [ {"id":"40718","amount":"10"}, {"id":"40801","amount":"26"}, {"id":"40..
wave35
'DataPipeline' 카테고리의 글 목록 (9 Page)