'DataPipeline' 카테고리의 글 목록 (7 Page)

Elasticsearch - Reindex

2023.03.26·

DataPipeline/Elasticsearch

1. Temp index 생성 PUT users_temp 2. Temp index에 타입 Mapping PUT users_temp/_mapping { "properties": { "location": { "type": "geo_point" } } } 3. Re-index를 Temp index에 실행 POST _reindex { "source": { "index": "users" }, "dest": { "index": "users_temp" } } 4. User index 삭제 DELETE /users 5. 다시 User index 생성 PUT users 6. User index mapping PUT users/_mapping { "properties": { "location": { "type": "geo..

Elasticsearch - Opendistro Kibana 유저 확인, 추가, 삭제

2023.03.26·

DataPipeline/Elasticsearch

kibana역시 다른 BI툴과 같이 해당 유저의 Id/Password, Role을 정의할 수 있다.path: /usr/share/elasticsearch/plugins/opendistro_security/securityconfig로그인 유저 설정파일 : internal_users.yml 역할 설정파일 : roles.yml역할 맵핑 설정파일 : roles_mapping.yml tenants관련 설정파일 : tenants.yml [ user 추가 ] 유저확인1. curl명령어로 유저 확인$ curl -GET https://localhost:9200/_opendistro/_security/api/internalusers/ -u 'admin:admin' --insecure 2. 유저 정보가 저장되어있는 설..

Elasticsearch - Opendistro 와 Kibana 설치

2023.03.26·

DataPipeline/Elasticsearch

Elasticsearch의 무료버전인 Opendistro 설치과정 [ opendistro 설치 ] 가이드를 보고 설치한다. https://opendistro.github.io/for-elasticsearch-docs/docs/install/ single node 설정 elasticsearch.yml 수정 # 네크워크 접근 대역설정 network.host: 0.0.0.0 # 싱글노드 타입 discovery.type: single-node # 주석으로 막혀져 있어야한다 # cluster.initial_master_nodes: ["node-1", "node-2"] 추가 설정 (optional) 기본 config 파일은 etc/elasticsearch/elasticsearch.yml 파일이다. bootstrap..

Spark - Phoenix 연결 에러 ( NoSuchColumnFamilyException )

2023.03.25·

DataPipeline/Spark

[ 에러 ] org.apache.hadoop.hbase.regionserver.NoSuchColumnFamilyException: Column family table does not exist in region hbase:meta [ 원인 ] 연결하려는 Hbase와 Spark의 Hbase jar 파일의 버전이 맞지 않아 생김 [ 해결 ] Spark에 설치된 Hbase와 Hbase관련 Jar파일, 연결하려는 Hbase와 관련 Jar파일의 버전을 맞춘다.

Spark - Mysql 연결에러 (java.lang.ClassNotFoundException)

2023.03.25·

DataPipeline/Spark

[ 에러 ] Spark로 Mysql 연결시 java.lang.ClassNotFoundException: com.mysql.jdbc.Driver 에러가 뜬다면 1. spark-shell spark-shell --jars mysql-connector-java-5.1.46/mysql-connector-java-5.1.46.jar : --jars옵션을 통해 스파크쉘을 실행한다 2. spark-submit jars폴더 안에 mysql-connector파일을 넣어준다. cp -r $HIVE_HOME/lib/mysql-connector-java-5.1.46-bin.jar $SPARK_HOME/jars/ * CDH환경일시 cp ./mysql-connector-java-5.1.46-bin.jar /opt/cloudera..

Spark - Linux SBT 환경셋팅

2023.03.25·

DataPipeline/Spark

[ SBT 설치 ] - Ubuntu echo "deb https://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.list sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 2EE0EA64E40A89B84B2DF73499E82A75642AC823 sudo apt-get update sudo apt-get install sbt - CentOS curl https://bintray.com/sbt/rpm/rpm | sudo tee /etc/yum.repos.d/bintray-sbt-rpm.repo sudo yum install sbt 참조 : https://twi..

Spark - Mysql Connect Scala code

2023.03.25·

DataPipeline/Spark

접속정보를 option으로 주는 방법과 java.util.properties객체를 이용해 Mysql Server와 연결하는 방법이있다. import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession import java.util.Properties object RdbToHive { def main(args: Array[String]): Unit = { val conf = new SparkConf() .setAppName("SELECT RDBMS DATA") .setMaster("local") val spark = SparkSession.builder.config(conf).getOrCreate() // Loading data from..

Spark - 로컬환경에서 Hive Thrift Connect Scala Code

2023.03.25·

DataPipeline/Spark

Scala 예시 import org.apache.spark.SparkConf import org.apache.spark.SparkContext._ import org.apache.spark.SparkContext import org.apache.spark.sql.SparkSession object SimpleApp { def main(args: Array[String]): Unit = { val conf = new SparkConf() .setAppName("HiveToPhoenix") .setMaster("local[*]") val sc = new SparkContext(conf) val spark = SparkSession.builder() .appName("Spark Hive Example") .c..

티스토리툴바