스파크완벽가이드 - 13장 RDD 고급개념
·
DataPipeline/Spark
핵심주제- 집계와 키-값 형태의 RDD- 사용자 정의 파티셔닝- RDD 조인 13.1 키-값 형태의 기초words.map(lambda word: (word.lower(), 1)).take(5)>>> [('spark', 1), ('the', 1), ('definitive', 1), ('guide', 1), (':', 1)]- [1] key-value 구조로 만들기 ( 튜플 )keyword = words.keyBy(lambda word: word.lower()[0])>>> [('s', 'Spark'), ('t', 'The'), ('d', 'Definitive'), ('g', 'Guide'), (':', ':')]- [2] key, value 값 추출하기keyword.keys().collect()keywor..