[ 원인 ]
Hive로 실시간데이터를 받아오니 아래 그림과 같이 Data Block의 임계값 초과 경고문구가 뜬다.
Default size가 128MB인 data block은 hdfs에서 유한한 저장공간 때문에 그 갯수를 제한하고 있다.

[ 해결 ]
1. 블록 임계값 늘리기
CDM에서 HDFS->구성에 들어가 해당 "DataNode 블록 수 임계값"을 더 높게 설정한다.

2. 필요없는 데이터 삭제하기
데이터를 삭제하여 data block을 확보한다.
3. HDFS Rebalancing 수행
새로운 데이터노드를 추가하거나 삭제하기 때문에 데이터가 불균형하게 배포될 수 있다. 리밸런싱을 통한 데이터노드의 데이터 균일화로 불필요한 블록 수를 줄인다.
a. HDFS 서비스로 간다.
b. 상단의 Actions -> Rebalance를 클릭해 작업을 수행한다.
( 리밸런싱이 불필요한 경우 표시되지 않는다. )
'Platform > Hadoop' 카테고리의 다른 글
Cloudera Manager - Kerberos 보안설정 (0) | 2023.03.22 |
---|---|
HADOOP - FileSystem Shell 명령어 (0) | 2023.03.20 |
HADOOP - vCPU(AWS EC2)와 vCORE(Yarn)의 관계 (0) | 2023.03.15 |
Cloudera Manager -HDFS Rebalancing (리밸런싱) (0) | 2023.03.15 |
Cloudera Manger - EC2 설치 [ install in EC2 ] (0) | 2023.03.14 |