BigQuery 샌드박스 사용하기
BigQuery 샌드박스 사용하기
1. BigQuery Sandbox란?
BigQuery Sandbox는 Google Cloud Platform(GCP)에서 제공하는 무료 환경으로, 사용자가 비용 부담 없이 BigQuery의 기능을 체험해볼 수 있도록 설계되었습니다. BigQuery 샌드박스를 사용하면 BigQuery 기능을 무료로 탐색하여 BigQuery가 니즈에 적합한지 확인할 수 있습니다.
이미 결제 계정을 만든 경우에도 무료 사용량 등급으로 BigQuery를 무료로 사용할 수 있으니 참고해주세요. BigQuery Sandbox는 Google Cloud Platform(GCP)에서 제공하는 무료 환경으로, 사용자가 비용 부담 없이 BigQuery의 기능을 체험해볼 수 있도록 설계되었습니다. 이 글에서는 BigQuery Sandbox의 주요 기능, 제한 사항, 그리고 샌드박스를 시작하는 방법을 소개하겠습니다.
1.1 BigQuery Sandbox의 주요 장점
- 비용 부담 없음: BigQuery Sandbox는 무료로 제공되며, 비용이 청구되지 않습니다.
- 초기 설정이 필요 없음: 샌드박스는 GCP 프로젝트에서 BigQuery API를 활성화하는 즉시 사용할 수 있습니다.
- 풀 기능 체험: 샌드박스를 통해 BigQuery의 주요 기능을 대부분 경험할 수 있습니다.
1.2 BigQuery Sandbox의 제한 사항
샌드박스는 무료로 제공되는 만큼 몇 가지 제한 사항이 있습니다. 이러한 제한은 사용자의 실제 비용 부담을 방지하는 동시에, 무료로 충분한 실습 환경을 제공하기 위한 것입니다.
- 쿼리 사용량 제한: 하루 최대 1TB의 쿼리 데이터를 처리할 수 있습니다.
- 저장 용량 제한: 최대 10GB의 데이터를 무료로 저장할 수 있습니다.
- 데이터셋 수 제한: 하나의 GCP 프로젝트당 최대 50개의 데이터셋을 생성할 수 있습니다.
- 예약된 쿼리 지원 없음: 예약된 쿼리 기능은 지원되지 않습니다.
- 시간 제한: 60일 동안 사용하지 않으면 샌드박스가 종료될 수 있습니다.
2. BigQuery Sandbox 시작하기
BigQuery Sandbox는 매우 쉽게 시작할 수 있으며, 별도의 결제 정보 입력 없이 사용할 수 있습니다.
2.1 GCP 가입하기
Google Cloud Console(https://console.cloud.google.com)로 이동합니다. 처음 가입하는 경우 약관에 동의한 후 로그인합니다.
위의 그림과 같이 페이지 상단의 프로젝트 선택을 클릭한 후 새 프로젝트를 클릭하여 새 프로젝트를 생성합니다.
2.2 BigQuery API 활성화
새 프로젝트를 생성한 후, API 및 서비스 > API 라이브러리로 이동합니다.
BiqQueryAPI를 찾아 볼까요?
위와 같이 BigQuery API를 검색한 후, 해당 API를 선택하고 활성화 버튼을 클릭합니다.
2.3 BigQuery Sandbox 사용
BigQuery API가 활성화되면, Google Cloud Console의 BigQuery 섹션으로 이동합니다. 기본 프로젝트는 SANDBOX
로 시작하기 때문에 프로젝트 상단에 SANDBOX
가 표시됩니다. 이제 BigQuery 콘솔에서 샌드박스 환경을 사용하여 데이터를 업로드하고 쿼리를 실행할 수 있습니다. 이제 Google Cloud 콘솔로 공개 데이터 세트를 쿼리할 수 있습니다.
2.4 공개 데이터 세트 찾기
기본적으로 Google Cloud 콘솔에서 BigQuery 공개 데이터 세트를 사용할 수 있습니다.
탐색기
창에서 +추가
버튼을 클릭한 후 추가
대화상자에서 public dataset
를 검색합니다. 검색 결과의 공개 데이터 세트
를 선택하면 탐색기 창에서 세부내용을 볼 수 있습니다.
미국에서 가장 많이 쓰인 이름 정보를 저장한 USA Names
입력하고 데이터보기
를선택합니다.
데이터가 정상적으로 선택되면 위와 같이 bigquery-public-data
가 탐색창에 추가된 것을 확인할 수 있습니다.
usa_names
를 선택해서 데이터 정보를 확인합니다. 왼쪽 창에서 usa_1910_2013
과 usa_1910_current
테이블이 있는 걸 확인할 수 있습니다. usa_1910_2013
테이블을 선택하면 테이블에 저장된 데이터의 스키마를 확인할 수 있습니다.
2.5 공개 데이터 세트 쿼리하기
+
버튼을 선택해서 새로운 쿼리창을 생성하고 데이터를 분석합니다.
새롭게 생성된 쿼리창에 위와 같이 쿼리를 입력합니다. 실행
버튼으로 쿼리 명령어를 실행하면 공개 데이터를 이용해서 쿼리를 수행합니다.
위의 쿼리는 bigquery-public-data.usa_names.usa_1910_2013
테이블에서 가장 많이 사용된 이름 상위 10개를 조회하는 쿼리입니다.
SELECT name, SUM(number) AS total
: 보여줄 열을 지정합니다.name
열과number
열의 총합을total
이라는 이름으로 표시합니다.number
열은 해당 이름이 몇 번 사용되었는지를 나타내는 값입니다.FROM bigquery-public-data.usa_names.usa_1910_2013
: 데이터가 저장된 테이블을 지정합니다.GROUP BY name
: 동일한 이름끼리 그룹화 합니다. 즉 각 이름에 대해 그 이름이 사용된 횟수(number
)를 그룹화하여 합산합니다.ORDER BY total DESC
: 합산된total
을 기준으로 내림차순(DESC)으로 정렬합니다. 즉, 가장 많이 사용된 이름이 상위에 오도록 합니다.LIMIT 10
: 결과에서 상위 10개 행만을 반환하도록 제한합니다.
위와 같이 쿼리 결과
는 많이 사용된 이름 10개를 표시합니다.
3. 프로젝트 삭제
사용한 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 프로젝트를 삭제해야 합니다. Big Query 샌드박스
를 사용하여 데이터 세트를 쿼리한 경우에는 프로젝트에 결제가 사용 설정되지 않습니다. 그 외에 경우 비용이 청구되지 않도록 하는 가장 쉬운 방법은 프로젝트를 삭제하는 것입니다.
프로젝트를 삭제하면 다음과 같은 효과가 발생합니다.
- 프로젝트의 모든 항목이 삭제됩니다. 프로젝트에서 수행한 다른 작업도 삭제됩니다.
- 커스텀 프로젝트 ID가 손실됩니다.
- 여러 아키텍처, 튜토리얼, 빠른 시작을 살펴보려는 경우 프로젝트를 재사용하면 프로젝트 할당량 한도 초과를 방지할 수 있습니다.