Cloudera Manager - Kerberos 보안설정
·
Platform/Hadoop
CDH는 보안프로그램으로 커버로스를 제공한다. 유저가 많아지고 각 유저에 대한 권한이 세분화되어야 함에 따라 그 필요성이 중시된다. 서버환경은 EC2-CentOs7, CDH5.15으로 진행된다. [ 커버로스 개념 ] Protocol의 동작순서는 아래와 같다. 이미지 출처 : https://www.letmecompile.com/kerberos-protocol 간단히 이해하자면 커버로스 프로세스는 영화를 예매하는 것에 비유할 수 있다. 인터넷(AS)으로 영화를 예매한다. 예매코드를 가지고 영화관에서 티켓(TGS)를 뽑는다. 입장시 해당 티켓를 점원(SS)에게 제출한다. 3단계 보안프로세스를 통해 유효한 티켓이있는 유저만 접속제한하여 편리하게 관리하는 것이 가능하다. [ 1.사전 설치 ] JDK 1.8.0_1..
HADOOP - FileSystem Shell 명령어
·
Platform/Hadoop
FS Shell은 HDFS와 직접 상용작용할 뿐만 아니라 WebHDFS, AmazonS3 Azure WASB 등 하둡에서 지원하는 다른 파일시스템도 포함되어있다. FS Shell은 " bin/hadoop fs " 에 의해 호출된다. HDFS가 이미 사용되고 있다면 hdfs dfs는 동의어이다.(=hadoop fs) 'hadoop fs'와 'hdfs dfs' 명령어차이는 전자는 다른 응용프로그램(WebHDFS, AmazonS3 Azure 등) 에서도 사용하는 포괄적인 명령어고 후자는 HDFS에서만 사용할 수 있는 명령어이다. cat hadoop fs -cat /user/hive/text1.txt : 해당 파일내용을 stdout(콘솔) 출력한다. chgrp hadoop fs -chgrp [-R] 변경할그룹 ..
HADOOP - vCPU(AWS EC2)와 vCORE(Yarn)의 관계
·
Platform/Hadoop
EC2 vCPUAWS에서 나와있는 EC2인스턴스별 유형을 살펴보면 이해가 쉽다.일반 컴퓨팅의 CPU와 같다고 보면 된다.https://aws.amazon.com/ko/ec2/instance-types/  YARN vCOREYARN이 병렬처리(Thread)를 하기 위해 실제 코어(CPU)를 추상화한 가상코어이다.Windows OS가 CPU를 하나로 메모리에 응용프로그램을 실행시키는 것과 같이,YARN은 컨테이너를 통한 메모리할당을 할 때 vCORE를 사용한다. http://yourHDFSurl:8088에서 설정된 vCORE를 확인하거나yarn-site.xml에서 yarn.nodemanager.resource.cpu-vcores 프로퍼티에서 변경할 수 있다.( Default는 8이다 )   vCPU와 vCO..
Cloudera Manager -HDFS Rebalancing (리밸런싱)
·
Platform/Hadoop
1. HDFS Balancers 기존 클러스테어 새로운 DataNode를 지속적으로 추가하기 떄문에 HDFS데이터가 항상 균일하게 배포되지 않을 수 있다. 따라서 HDFS는 블록 배치를 분석하고 데이터균형을 조정하는 밸런서 유틸리티를 제공한다. 밸런서는 단일 DataNode의 개별 볼륨 간에 균형을 유지하지는 않는다. 2. CDH를 이용한 HDFS Balancer Configuration [ 밸런서 임계값 ] HDFS Balancer는 일반적으로 CDH서비스가 설치될 때 추가된다. 밸런서의 기본 임계값은 10%로, 각 데이터노드의 디스크 사용량이 클러스터의 전체 사용량과 10% 이하로 차이가 남을 의미한다. 예를 들어 데이터노드의 전체 사용량이 40%라면 각 클러스터는 30~50% 스토리지 용량을 사용하..
Cloudera Manager - HDFS block count 임계값 오류
·
Platform/Hadoop
[ 원인 ] Hive로 실시간데이터를 받아오니 아래 그림과 같이 Data Block의 임계값 초과 경고문구가 뜬다. Default size가 128MB인 data block은 hdfs에서 유한한 저장공간 때문에 그 갯수를 제한하고 있다. [ 해결 ] 1. 블록 임계값 늘리기 CDM에서 HDFS->구성에 들어가 해당 "DataNode 블록 수 임계값"을 더 높게 설정한다. 2. 필요없는 데이터 삭제하기 데이터를 삭제하여 data block을 확보한다. 3. HDFS Rebalancing 수행 새로운 데이터노드를 추가하거나 삭제하기 때문에 데이터가 불균형하게 배포될 수 있다. 리밸런싱을 통한 데이터노드의 데이터 균일화로 불필요한 블록 수를 줄인다. a. HDFS 서비스로 간다. b. 상단의 Actions -..
Cloudera Manger - EC2 설치 [ install in EC2 ]
·
Platform/Hadoop
[ 환경 ] RedHat Version 7 3대이상 EC2 Server [ EC2 보안그룹 셋팅 ] 해당 Document를 참조 : https://docs.cloudera.com/management-console/cloud/environments/topics/mc-environment-aws-security-groups.html [ 설치 ] - 관련 패키지 설치 $ sudo yum update -y && sudo yum install wget -y && sudo yum install -y ntp && sudo systemctl start ntpd && sudo systemctl enable ntpd && sudo yum install iptables-services -y $ sudo chkconfig n..
wave35
'Platform/Hadoop' 카테고리의 글 목록