본문으로 바로가기

1. Embulk 설치 - Embulk란?

category Embulk/Embulk 소개 및 설치 2017. 10. 10. 11:02

빅데이터 분석에 있어서, 아키텍처적으로 중요한 모듈중의 하나는 여러 서버로부터 생성되는 데이터를 어떻게 모을인가이다.

이를 편하게 해주는 Embulk라는 좋은 솔루션이 있다.


Embulk 소개

Embulk는 Sqoop과 거의 같은 기능을 하는 솔루션으로 여러 데이터 소스로 읽어와서 부어주는 기능을 하는 솔루션이다.



Embulk 특징

1. 플러그인 형태로 여러 데이터 소스를 이용할 수 있다. (BigQuery, Oracle, MySQL, PostgreSQL, CSV, JSON…)

2. 병렬로 로딩이 가능하다.

3. 스키마를 예측해서 해당 스키마가 없으면 알아서 만들어 준다.


테스트 환경
이 글에서는 Google Cloud Platform의 (이하 GCP) VM과 Cloud SQL을 이용하여 테스트를 진행한다.

VM 생성

VM생성에 대한 자세한 안내는 여기 에 정리가 되어있으니 참고하면 된다. 

본 테스트에서는 4코어 Ubuntu VM을 생성하고 모든 트래픽에대한 허용과 모든 Cloud API에 대한 전체 액세스를 허용하였다. 

추후에 빅쿼리 API 등을 사용할 것이기 때문에 반드시 허용해주어야 한다.



설정이 끝나면 VM을 실행한다.


Embulk 설치

Embulk의 설치순서는 다음과 같다.


1. JVM 설치 (설치되어 있을 시, 생략)

2. Embulk 설치 명령어 실행


1. JVM 설치

GCP Ubuntu VM에는 default로 JAVA가 설치되어 있지 않기 때문에, JVM을 설치한다.

% sudo apt-get update

% sudo apt-get install default-jre


2. Embulk 설치

Embulk 설치는 다음의 4개의 커맨드만 입력하면 간단하게 설치가 된다.

$ curl --create-dirs -o ~/.embulk/bin/embulk -L "https://dl.embulk.org/embulk-latest.jar"
$ chmod +x ~/.embulk/bin/embulk
$ echo 'export PATH="$HOME/.embulk/bin:$PATH"' >> ~/.bashrc
$ source ~/.bashrc


설치완료 후 아래 커맨드를 입력하면 다음과 같이 설치가 된 것을 확인할 수 있다.

$ embulk -version
embulk 0.8.35


Embulk plug-in 설치

$ embulk gem install [plug-in] # 필요한 플러그인은 [plug-in] 부분에 넣어서 설치를 한다.
$ embulk gem list # 설치할 수 있는 플러그-인 리스트를 확인한다.


이상으로 Embulk가 무엇인지에 대하여 간단히 알아보았고, GCP VM환경에서 설치하는 법을 알아보았다.

다음 포스팅에서는 Cloud SQL로 Embulk를 이용하여 데이터를 넣어보는 테스트를 해보겠다.



# 궁금한점은 댓글 남겨주시면 부족한 지식이지만 답변 드리겠습니다.



참고자료 : 

1. 조대협의 블로그 - 빅데이타 수집을 위한 데이타 수집 솔루션 Embulk 소개 - http://bcho.tistory.com/1126

2. Jungwoon Blog - Embulk 설치 및 기본 사용법 - https://jungwoon.github.io/bigdata/2017/08/31/Embulk_Setup/