일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- Hello World
- Mobiele toepassing
- 스프링부트
- Data Lake
- Ҷойҳо дар Корея
- Кор барои хориҷиён
- Мобиль замима
- BigData
- ကိုရီးယား
- အလုပ်အကိုင်
- အယ်လ်ဘာ
- Чои кор барои хоричиён
- 계정삭제 요청
- Чати тарҷумаи худкор
- java
- Kotlin
- 비바버튼
- korea
- Кор дар Корея
- အလုပ်
- စကားစမြည်ပြောခြင်း
- 빅데이터
- Шуғ дар Корея
- Spring boot
- Кори нопурра дар Корея
- မြန်မာ
- Werwingtoepassing
- Коркабулкунӣ барои хориҷиён
- နိုင်ငံခြားသား
- Job
- Today
- Total
VivaButton
빅쿼리(Google BigQuery) 사용해보기 본문
이번 포스팅은 구글 빅쿼리를 처음 사용하는 사용자를 위한 가이드이다.
구글 빅쿼리는 테라바이트 이상의 빅한 데이터를 다루기 위한 데이터웨어 하우스이다.
DW이지만 WEB상에서 통합관리가 되고, WEB 콘솔에서 직접 쿼리하고 데이터셋,테이블 관리 기능도 제공한다.
SQL도 물론 사용할 수 있고, Legacy SQL과 Standard SQL 두가지 SQL모드를 제공한다.
무료 평가판을 기준으로 작성하였으며, 구글에서 제공한 샘플 데이터를 기준으로 작성되었다.
사실 제공받은 데이터셋을 공유해도 되는지는 잘 모르겠다. 그래서 파일은 첨부하지 않겠다.
GCP의 권장 브라우저인 크롬 브라우저를 사용하면 된다.
구글 클라우드 가입
먼저 GCP 클라우드를 사용하기 위해서는 구글 계정에 가입한다. 기존에 gmail 계정이 있으면 gmail 계정을 사용하면 된다. 크롬 브라우저에서 http://www.google.com/cloud 로 접속 후 , 하단의 “TRY GCP FOR FREE” 버튼을 눌러서 Google Cloud에 가입한다.
동의 클릭 후 다음 진행.
“무료로 사용해 보기” 버튼을 클릭하여 무료 체험판 GCP를 사용해본다.
이후 GCP 콘솔에서 유료버전으로 업그레이드가 가능하다.
동의 및 계속하기 버튼 클릭.
이후 개인 신상정보와 결제 카드 정보를 입력 후 구글 클라우드 가입이 완료된다.
참고) 개인 신용카드 정보를 등록해야 모든 서비스를 제한 없이 사용 할 수 있다. 단 Trial 버전의 경우 자동으로 한달간 300$의 비용을 사용할 수 있는 크레딧이 자동으로 등록되니, 이 범위를 넘지 않으면 자동으로 결제가 되는 일이 없으니 크게 걱정 할 필요는 없다.
확인 버튼을 클릭하여 구글 클라우드 가입을 완료한다.
상단의 “Google Cloud Platform”을 클릭하여 GCP 콘솔에 진입.
이후부터는 GCP 콘솔로 바로 접근하여 사용한다.
https://cloud.google.com/?hl=ko
GCP 개발자 콘솔
GCP 개발자 콘솔의 초기 화면이다. 대략 한번 둘러보고 다음 단계를 진행.
프로젝트 생성
프로젝트는 VM이나 네트워크 자원, SQL 등 클라우드 내의 자원을 묶어서 관리하는 하나의 집합이다. 여러 사람이 하나의 클라우드를 사용 할 때 이렇게 프로젝트를 별도로 만들어서 별도로 과금을 하거나 각 시스템이나 팀별로 프로젝트를 나눠서 정의하면 관리하기가 용이하다.
GCP 개발자 콘솔의 상단 “My First Project” 옆의 작은 화살표를 클릭하여 프로젝트를 생성한다.
최초 My First Project 프로젝트가 생성되어 있다.
Default 프로젝트를 사용해도 좋지만, 새로 생성을 해보겠다.
프로젝트 이름 필드에 hello-bigquery 라고 입력했다.
각자 프로젝트명을 입력 후 “만들기” 버튼을 클릭하여 프로젝트 생성을 완료한다.
다시 GCP 개발자 콘솔 화면에서 다시 “My First Project” 옆 화살표를 클릭.
프로젝트 목록에 생성한 프로젝트(hello-bigquery) 프로젝트 추가되었다.
프로젝트명을 클릭하면 해당 프로젝트가 선택되고 다시 GCP 콘솔로 이동된다.
BigQuery 콘솔로 이동
좌측메뉴에서 스크롤을 아래로 내리다 보면 BigQuery 메뉴를 볼 수 있다.
클릭하여 BigQuery 콘솔로 이동한다.
Welcome to BigQuery! 라는 메세지를 볼 수 있다.
BigQuery 콘솔 살펴보기
BigQuery 콘솔을 한번 살펴보고 다음으로 넘어간다.
아직 데이터셋과 테이블은 생성되지 않았다.
데이터 로딩
데이터셋 생성
BigQuery 콘솔의 좌측 프로젝트명(hello-bigquery) 우측에 화살표를 클릭해서 “Create new dataset”을 선택한다.
Dataset ID를 “lab” 이라고 입력 후 OK 버튼을 클릭.
Data location과 Data expiration은 지정하지 않았다.
lab이라는 데이터셋이 생성 된 걸 확인 할 수 있다.
샘플 데이터 다운로드
구글 클라우드에서 빅쿼리 관련 명령어를 실행할 때 커멘드 라인으로 실행이 가능하며, 커멘드 라인으로 실행하기 위해서는 Google Cloud SDK를 설치해야 하는데, 이런 SDK 및 관련 환경이 미리 설정된 쉘을 제공한다. 이를 Cloud Shell이라고 하고는데, 다음과 같이 클라우드 콘솔(http://console.cloud.google.com) 상단의 빨란색으로 표시해놓은 아이콘을 누르면 클라우드 쉘을 수행 할 수 있다.
클라우드 쉘이 GCP 콘솔 하단 영역에 실행되었다.
클라우드 쉘의 초기화면이다.
샘플 데이터를 다운로드 해보자.
Cloud Shell에서 다음 명령어를 실행한다.
$ wget https://dumps.wikimedia.org/other/pagecounts-raw/2016/2016-01/pagecounts-20160108-110000.gz
샘플데이터 다운로드가 완료 되었다.
다운로드된 샘플 데이터 확인을 위해 아래 명령어를 입력해 보자.
$ ls -alrt
정상적으로 다운로드가 완료 된 것을 확인 할 수 있다.
데이터 로딩
다음 명령어를 이용하여 다운로드 받은 파일을 로딩한다.
명령을 수행 할 때, 아래 빨간색 글씨 부분을 본인이 생성한 프로젝트ID로 한다.
아래 명령어를 copy&paste 할때는 에디터에 붙여서 “와 같은 문자를 다시한번 확인 후 붙인다.
$ bq load -F “ “ --quote “” hello-bigquery-196407:lab.pagecounts_20160108_11 pagecounts-20160108-110000.gz language,title,requests:integer,content_size:integer
테이블에 데이터가 로딩 되는데 상당한 시간이 걸린다. (10분 이상 걸리는듯 하다.)
지루하지만 기다려 본다. Python 코드로 작성된 bq 코드를 까볼까 고민하지만,
그냥 기다려 본다. 까보면 또다른 일만 생길수 있다는 생각으로 참아본다.
데이터 로딩이 완료 되었다.
다시 BigQuery 콘솔로 돌아가서 테이블 생성,데이터로드가 완료 된것을 눈으로 확인해 보자.
데이터 로딩 확인
위와 같이 lab 데이터셋에 pagecounts_20160108_11 이라는 테이블이 생성되고, 테이블에 샘플 데이터가 Load 되었다.
테이블을 선택하면 Body 영역에 Schema 탭이 선택되어 있고 테이블의 스키마를 볼 수 있다.
위에서 bq 명령어를 입력 할 때 지정한 것처럼 requests와 content_size만 integer 타입으로 생성 되었다. 타입을 지정하지 않을 시 default 타입은 String 타입이다.
Detail 탭도 한번 눌러보자.
테이블 정보를 볼 수 있다. 쭉 한번 확인해보고 다음은 테이블을 조회해보자.
쿼리 실행
좌측 네비게이션바에서 COMPOSE QUERY 버튼을 클릭해보자.
위와 같이 쿼리 입력창을 볼 수 있다.
간단한 쿼리를 작성 해 보자.
Pagecounts_20160108_11 테이블의 전체 레코드 중 requests 필드의 합계를 구해보자.
SELECT SUM(requests)
FROM [lab.pagecounts_20160108_11];
결과를 확인해 보자.
확인완료. 끝.
지금까지 BigQuery 맛보기를 해봤다.
'IT > 구글' 카테고리의 다른 글
빅쿼리 ML(BigQuery ML) 기초 (0) | 2018.08.03 |
---|---|
gRPC란? (0) | 2018.08.02 |
[자바, GCP] 빅쿼리(Google BigQuery) REST API (0) | 2018.07.30 |
Google BigQuery 콘솔(WEB UI) 가이드 (0) | 2018.07.30 |