Spark 클러스터 설정/ 구축

1. 워커 노드에 SSH서버를 설치해서 마스터 노드에서 들어갈 수 있게 한다.

>sudo apt-get install oppenssh-server

2. 마스터 노드에서  키를 생성

> ssh-keygen

3. 워커 노드에 매번 비밀번호를 치고 들어가지 않게 하기 위해 RSA 키 복사

> ssh-copy-id -i ~/.ssh/id_rsa.pub user@x.x.x.x

4. conf 폴더에 slaves 템플릿을 복사해 파일 생성 워커 노드들을 잡아준다.

5. spark-env.sh도 템플릿을 복사해 파일을 생성한다.
   export SPARK_MASTER_IP = N.N.N.N  >>>>> 마스터 노드의 아이피
   export SPARK_WORKER_CORES = 2    >>>>> 워커 노드의 사용 가능한 총 CPU 코어 수
   export SPARK_WORKER_MEMORY = 2400m >>>>> 워커 노드의 전체 메로리 할당량
   export SPARK_WORKER_INSTANCE =1 >>>>> 워커 노드의 프로세서 갯수

6. 마스터 노드의 커뮤터도 워커 노드에 추가해 활용하기
   ./bin/spark-calss org.apache.spark.deploy.worker.Worker spark://10.0.0.25:7077

7. 스파크 실행
   MASTER=spark://
10.0.0.25:7077 ./bin/pyspark



추후 실습을 다시 해서 추가내용으로 작성하도록 하자

'Data Engineer > Spark' 카테고리의 다른 글

Spark SQL이란 ?  (0) 2016.05.12
Spark - RDD란 !!? (2)  (0) 2016.05.09
Spark - RDD란 !!?  (0) 2016.05.09
Spark 설치 방법 (우분투 ubuntu 환경)  (0) 2016.05.09
Spark - 클러스터 & 스택 구조  (0) 2016.05.09

- 설치 환경 ubuntu 10.15


1) 자바 설치

- 스파크 자체는 스칼라로 만들어졌으며, 자바 가상 머신 위에서 돌아간다.

- 스파크 설치를 위해서는 자바 6이상의 버전이 필요하다.




2) Spark 설치

- 먼저 spark 홈페이지에서 standalone 버전을 다운 받는다.

- 압출을 풀어 설치를 완료한다.

'Data Engineer > Spark' 카테고리의 다른 글

Spark SQL이란 ?  (0) 2016.05.12
Spark - RDD란 !!? (2)  (0) 2016.05.09
Spark - RDD란 !!?  (0) 2016.05.09
Spark - 클러스터 설정/ 구축  (1) 2016.05.09
Spark - 클러스터 & 스택 구조  (0) 2016.05.09

Spark 클러스터 구조


1. Driver Program : 스파크 프로그램. 여러 개의 병렬적 작업으로 나눠져 Worker Node에 있는 Executor에서 실행

2. SparkCotext : 메인 시작 지점. 스파크API를 활용하기 위해 필요하다. 클러스터의 연결을 보여주고 RDD를 만드는데 사용

3. Cluster Manager : Standalone, YARN. Mesos 등 클러스터 자원 관리자

4. Worker Node : 하드웨어 서버. 하나의 물리적 장치에 여러 개도 가능

5. Executer : 프로세스. 하나의 워커 노드에 여러 개 가능



Spark 스택 구조



1. 인프라 계층 (Standalone Scheduler, YARN, Mesos) : 먼저 스파크가 기동하기 위한 인프라는 스파크가 독립적으로 기동할 수 있는 Standalone, 하둡 종합 플랫폼인 YARN 또는 Docker 가상화 플랫폼인 Mesos 위에서 기동한다.


2. 스파크 코어 (Spark Core) : 메모리 기반의 분산 클러스터 컴퓨팅 환경인 스팍 코어가 그 위에 올라간다.


3. 스파크 라이브러리 : 스파크 코어를 이용하여 특정한 기능에 목적이 맞추어진 각각의 라이브러리가 돌아간다. 빅데이터를 SQL로 핸들링할 수 있게 해주는 Spark SQL, 실시간으로 들어오는 데이터에 대한 real-time streaming 처리를 해주는 Spark Streaming, 그리고 머신러닝을 위한 MLib, 그래프 데이터 프로세싱이 가능한 GraphX등이 있다.



'Data Engineer > Spark' 카테고리의 다른 글

Spark SQL이란 ?  (0) 2016.05.12
Spark - RDD란 !!? (2)  (0) 2016.05.09
Spark - RDD란 !!?  (0) 2016.05.09
Spark - 클러스터 설정/ 구축  (1) 2016.05.09
Spark 설치 방법 (우분투 ubuntu 환경)  (0) 2016.05.09

+ Recent posts