스파크완벽가이드 - 5장 구조적 API 기본 연산
·
DataPipeline/Spark
- DataFrame은 Row 타입의 레코드와 연산 여러 컬럼으로 구성- 스키마는 각 컬럼명과 데이터의 타입을 정의- 파티셔닝은 DataFrame이나 Dataset이 클러스터에서 물리적으로 배치되는 형태를 정의- 예제를 위한 DataFrame 생성df = spark.read.format('json').load('/Users/myname/Test/Spark_ref/sparkGuide/data/2015-summary.json')df.printSchema()root |-- DEST_COUNTRY_NAME: string (nullable = true) |-- ORIGIN_COUNTRY_NAME: string (nullable = true) |-- count: long (nullable = true) 5.1 스..