'DataPipeline/Spark' 카테고리의 글 목록 (4 Page)

Pyspark Session

2023.07.14·

DataPipeline/Spark

[ SparkSession ]Spark를 사용하기 위해선 entry point를 제공하는 Spark 객체를 사용해야 한다.보통 SparkContext와 SparkSession은 사용하는데,SparkSession은 Spark 2.0 버전에서 나왔고 spark RDD, DataFrame, DataSet, spark sql 사용이 가능하다. spark-shell에서 자동적으로 SparkSession 객체가 생성되며 spark 변수로 사용할 수 있다. 또한 기존 SparkContext에서 다른 종류의 contexts인 SQLContext, HiveContext와 함께 사용하기도 하였는데, SparkSession은 이를 대체하여 범용성을 가진다.아래 예시를 보자 - SparkContextfrom pyspark i..

Spark - Phoenix 연결 에러 ( NoSuchColumnFamilyException )

2023.03.25·

DataPipeline/Spark

[ 에러 ] org.apache.hadoop.hbase.regionserver.NoSuchColumnFamilyException: Column family table does not exist in region hbase:meta [ 원인 ] 연결하려는 Hbase와 Spark의 Hbase jar 파일의 버전이 맞지 않아 생김 [ 해결 ] Spark에 설치된 Hbase와 Hbase관련 Jar파일, 연결하려는 Hbase와 관련 Jar파일의 버전을 맞춘다.

Spark - Mysql 연결에러 (java.lang.ClassNotFoundException)

2023.03.25·

DataPipeline/Spark

[ 에러 ] Spark로 Mysql 연결시 java.lang.ClassNotFoundException: com.mysql.jdbc.Driver 에러가 뜬다면 1. spark-shell spark-shell --jars mysql-connector-java-5.1.46/mysql-connector-java-5.1.46.jar : --jars옵션을 통해 스파크쉘을 실행한다 2. spark-submit jars폴더 안에 mysql-connector파일을 넣어준다. cp -r $HIVE_HOME/lib/mysql-connector-java-5.1.46-bin.jar $SPARK_HOME/jars/ * CDH환경일시 cp ./mysql-connector-java-5.1.46-bin.jar /opt/cloudera..

Spark - Linux SBT 환경셋팅

2023.03.25·

DataPipeline/Spark

[ SBT 설치 ] - Ubuntu echo "deb https://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.list sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 2EE0EA64E40A89B84B2DF73499E82A75642AC823 sudo apt-get update sudo apt-get install sbt - CentOS curl https://bintray.com/sbt/rpm/rpm | sudo tee /etc/yum.repos.d/bintray-sbt-rpm.repo sudo yum install sbt 참조 : https://twi..

Spark - Mysql Connect Scala code

2023.03.25·

DataPipeline/Spark

접속정보를 option으로 주는 방법과 java.util.properties객체를 이용해 Mysql Server와 연결하는 방법이있다. import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession import java.util.Properties object RdbToHive { def main(args: Array[String]): Unit = { val conf = new SparkConf() .setAppName("SELECT RDBMS DATA") .setMaster("local") val spark = SparkSession.builder.config(conf).getOrCreate() // Loading data from..

Spark - 로컬환경에서 Hive Thrift Connect Scala Code

2023.03.25·

DataPipeline/Spark

Scala 예시 import org.apache.spark.SparkConf import org.apache.spark.SparkContext._ import org.apache.spark.SparkContext import org.apache.spark.sql.SparkSession object SimpleApp { def main(args: Array[String]): Unit = { val conf = new SparkConf() .setAppName("HiveToPhoenix") .setMaster("local[*]") val sc = new SparkContext(conf) val spark = SparkSession.builder() .appName("Spark Hive Example") .c..

티스토리툴바