본문으로 바로가기

빅쿼리란?

[개요]

- 버튼 클릭 한 번으로 테라바이트 데이터 분석

Google BigQuery는 대용량 Dataset(최대 몇 십억 개의 행)를 대화식으로 분석하는 데 사용할 수 있는 웹 서비스. 

확장 가능하고 사용이 간편한 BigQuery를 통해 개발자와 기업은 필요할 때 강력한 데이터 분석을 수행할 수 있다.

빅쿼리

빅쿼리BigQuery는 대규모 데이터 저장 및 분석 플랫폼으로, 일종의 데이터 웨어하우스라 생각하면 된다. 

8,800개의 CPU와 3,600개의 디스크를 사용하는 대규모 인프라를 활용하여 1,000억 개의 레코드에 대한 질의를 30초 정도에 수행해주며, 가격도 저렴하다. 

문법도 SQL과 유사하여 사용하기 매우 쉽다. 


[빅쿼리의 특징]

1. 클라우드 서비스로 설치/운영이 필요 없다 (NoOps)
- 간단하게 클릭 몇 번으로 서비스 사용이 가능하고, 별도의 설정이나 운영이 필요 없다.

2. SQL 언어 사용
- 기존 RDBMS에서 사용되는 SQL언어를 그대로 사용한다.

3. 클라우드 스케일의 인프라를 활용한 대용량 지원과 빠른 성능
- 대용량 인프라를 공유하는 클라우드 서비스이기 때문에 다수의 CPU, 하드디스크, 네트워크를 사용할 수 있다. (빠른 성능, 저렴한 비용)

4. 데이터 복제를 통한 안정성
- 3개의 복제본이 서로 다른 데이터 센터에 분산되어 저장되기 때문에 데이터에 대한 유실 위험이 적다.

5. 배치와 스트리밍 모두 지원
- 한꺼번에 데이터를 로딩하는 배치 외에, 실시간으로 데이터를 입력할 수 있는 스트리밍 기능을 제공한다.

6. 비용 정책
- 싸다. 무지 싸다. (가격 정책 : https://cloud.google.com/bigquery/pricing)

[기존의 빅데이터 분석 플랫폼과 다른 점]
1. 쉽다
- Hadoop이나 Spark 등을 사용하게 되면 일정 수준 이상의 전문성이 필요한데, 빅쿼리는 로그인 후 SQL만 수행하면 되기 때문에 상대적으로 데이터 분석이 쉽다.

2. 운영이 필요 없다
- 타 분석 플랫폼은 인스톨과 설정 그리고 클러스터의 유지 보수가 보통 일이 아니다.
하지만, 빅쿼리는 클라우드 서비스이기 때문에 별도의 운영 등에 신경을 쓸 필요가 없이 개발과 분석에만 집중하면 된다.

3. 인프라에 대한 투자 없이 막강한 컴퓨팅 자원 활용
- 기존 빅데이터 플랫폼들 역시 클라우드 환경에 올리면 수천개의 CPU를 활용할 수 있지만, 그 설정 작업과 비용적인 측면에서 차이가 크다.


참고자료 : 

1. 조대협의 블로그 - 구글 빅데이타 플랫폼 빅쿼리(Bigquery)소개 - http://bcho.tistory.com/1116

2. Google BigQuery - Google Developers - https://developers.google.com/bigquery/?hl=ko

3. 빠르게 훑어보는 구글 클라우드 플랫폼 - 한빛미디어



'GCP (Google Cloud Platform) > ㄴBigQuery' 카테고리의 다른 글

[GCP]빅쿼리 튜토리얼  (0) 2018.02.28