'CDH' 태그의 글 목록

Cloudera Manager - Kerberos 보안설정

2023.03.22·

Platform/Hadoop

CDH는 보안프로그램으로 커버로스를 제공한다. 유저가 많아지고 각 유저에 대한 권한이 세분화되어야 함에 따라 그 필요성이 중시된다. 서버환경은 EC2-CentOs7, CDH5.15으로 진행된다. [ 커버로스 개념 ] Protocol의 동작순서는 아래와 같다. 이미지 출처 : https://www.letmecompile.com/kerberos-protocol 간단히 이해하자면 커버로스 프로세스는 영화를 예매하는 것에 비유할 수 있다. 인터넷(AS)으로 영화를 예매한다. 예매코드를 가지고 영화관에서 티켓(TGS)를 뽑는다. 입장시 해당 티켓를 점원(SS)에게 제출한다. 3단계 보안프로세스를 통해 유효한 티켓이있는 유저만 접속제한하여 편리하게 관리하는 것이 가능하다. [ 1.사전 설치 ] JDK 1.8.0_1..

Apache Phoenix - CDH 피닉스 초기 설정 [Init Configuration]

2023.03.22·

DataPipeline/Phoenix

[ CDH Phoenix 초기설정 ] 1. HBase 서비스 탭 2. hbase-site.xml에 대한 HBase 서비스 고급 구성 스니펫(안전 밸브) 검색 [1] Secondary Index 피닉스의 Secondary Index를 사용하기 위해 설정값 추가 이름 : hbase.regionserver.wal.codec 값 : org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec 피닉스 인덱싱에 관한 참조 : https://phoenix.apache.org/secondary_indexing.html [2] 사용자정의 함수 사용 사용자 정의함수를 사용하도록 다음 속성을 설정 이름 : phoenix.functions.allowUserDefinedFunct..

Apache Hive - CDH Hive 환경설정 최적화

2023.03.15·

DataPipeline/Hive

[ 사전 준비 ] 1. 모든 설정은 CDH->Yarn / Hive->구성에서 값을 수정한다. 2. spark executor는 하나의 yarn container가지며, spark task는 하나의 core(yarn vcore)에서 실행된다.하나의 spark executor가 여러개의 spark task를 동시에 부릴 수 있다. 3. 하이브 엔진으로 spark를 사용하기 위해선 위 설정을 해주어야 한다. Default는 MapReduce이다. [ 예제 환경 ]예시로 실행되는 환경은 40개의 host가 있는 YARN클러스터이며,각 호스트는 32개의 Core와 120GB메모리가 할당되어있다고 가정한다. [ YARN Configuration ] 1. yarn.nodemanager.resource.cpu-vc..

Cloudera Manager -HDFS Rebalancing (리밸런싱)

2023.03.15·

Platform/Hadoop

1. HDFS Balancers 기존 클러스테어 새로운 DataNode를 지속적으로 추가하기 떄문에 HDFS데이터가 항상 균일하게 배포되지 않을 수 있다. 따라서 HDFS는 블록 배치를 분석하고 데이터균형을 조정하는 밸런서 유틸리티를 제공한다. 밸런서는 단일 DataNode의 개별 볼륨 간에 균형을 유지하지는 않는다. 2. CDH를 이용한 HDFS Balancer Configuration [ 밸런서 임계값 ] HDFS Balancer는 일반적으로 CDH서비스가 설치될 때 추가된다. 밸런서의 기본 임계값은 10%로, 각 데이터노드의 디스크 사용량이 클러스터의 전체 사용량과 10% 이하로 차이가 남을 의미한다. 예를 들어 데이터노드의 전체 사용량이 40%라면 각 클러스터는 30~50% 스토리지 용량을 사용하..

Apache Zeppelin - CDH의 spark 연동

2023.03.15·

Monitoring/Zeppelin

1. CDH 작동확인 해당 웹UI를 통해 실행확인 HDFS : http://:50070 YARN http://:8088/cluster 2. 재플린 환경파일 설정 vi /zeppelinPath/conf/zeppelin-env.sh export MASTER=yarn-client export HADOOP_CONF_DIR=[your_hadoop_conf_path] export SPARK_HOME=[your_spark_home_path] HADOOP_CONF_DIR : 도커설치시 : /scripts/docker/spark-cluster-managers/cdh/hdfs_conf 일반설치시 : /etc/hadoop/conf 3. 인터프린터 수정 및 실행 인터프린터 설정페이지에서 위 그림의 master를 yarn-cl..

티스토리툴바