Google BigQuery 업데이트

데이터와 통찰력 사이의 격차를 해소하다

Google은 GO-JEK, Ocado와 같은 분석 정보 회사 또는 Home Depot 및 HSBC 와 같은 Fortune 500대 기업과 지속적으로 협력하여 고객의 요구사항을 파악합니다. 우리가 배운 많은 것들이 데이터 분석 플랫폼에 직접적인 영향을 미쳤습니다.

오늘날 우리는 데이터 분석을 모든 비즈니스에서 보다 쉽고 편리하게 이용할 수 있도록 많은 Google이 발표한 업데이트를 공유하고자 합니다. 우리의 목표는 인프라 관리가 아닌 데이터 분석에 집중하고, 클라우드에서 업무량을 자유롭게 조정하고 데이터 분석 작업과 통합된 방식으로 머신러닝을 사용하고, 오픈 소스 데이터 처리 혁신을 활용하는 것입니다.

우리가 발표할 내용은 다음과 같습니다.

  • BigQuery ML, 베타 버전에서 지금 사용 가능
  • BigQuery 클러스터링, 베타 버전
  • BigQuery GIS, 공개 알파 버전
  • BigQuery 용 스프레드 시트 데이터 커넥터, 베타 버전
  • Data Studio Explorer, 베타 버전
  • 현재 사용할 수있는 Cloud Composer
  • Dataproc 용 고객 관리 암호화 키 (일반적으로 BigQuery에서 사용 가능, Compute Engine 및 Cloud Storage에서 베타 버전)
  • Dataflow Streaming Engine 및 Python Streaming을 비롯한 스트리밍 분석 업데이트 베타 버전 및 일반적으로 사용 가능한 배치 데이터 용 Dataflow Shuffle
  • Dataproc 자동 스케일링 및 Dataproc Custom Packages, 알파 버전

 

[ BigQuery ML 소개: 머신러닝을 데이터에 더 가깝게 가져오다 ]

모든 비즈니스는 데이터를 생성하지만 일부만이 머신 러닝을 채택하여 진정으로 데이터를 이해합니다. 왜 그런 지 많은 이유가 있습니다. SQL에 익숙한 데이터 분석가는 R이나 Python과 같은 프로그래밍 언어 또는 기능 공학, 모델 선택 및 하이퍼 튜닝 프로세스에 대한 깊은 이해가 항상있는 것은 아닙니다. 예측 분석 솔루션을 구축하기 위해 데이터 과학자 팀을 고용하는 것은 엄청나게 비쌀 수 있습니다. 또한 기업 데이터 웨어 하우스와의 데이터 이동은 복잡하고 시간이 오래 걸리며 비용이 많이 듭니다.

오늘은 이러한 문제를 해결하기 위해 BigQuery ML을 발표합니다. BigQuery ML을 사용하면 데이터 과학자 및 데이터 분석가가 간단한 SQL을 사용하여 BigQuery 내부에서 대규모, 구조적 및 반 구조화 된 데이터 세트에 머신 러닝 모델을 직접 구축하고 배포할 수 있습니다. 즉, 판매 예측과 같은 예측 분석을 수행하고 데이터를 이미 저장한 소스에서 고객 세그먼트를 만들 수 있습니다. 그리고 이 모든 것을 전통적인 ML 시스템과 관련된 시간의 몇 분의 1 이내에 가능합니다.

많은 고객들이 BigQuery ML에서 실행하기 시작한 작업 흐름에 흥미를 느낍니다.

“BigQuery ML은 데이터 분석가와 통계 학자가 예측 분석을 수행 할 수 있게 해줍니다. 그것은 우리의 노동력을 확대하여 머신 러닝 모델을 개발할 때 새롭고 혁신적인 아이디어를 제시합니다. 라고 정밀 의학 재단 (FPM)의 수석 데이터 과학자인 Ayin Vala는 말합니다. “우리 조직에서는 ML 모델을 구축하는 가장 빠른 방법이며, 우리의 대규모 데이터 세트에서 이를 실행하는 가장 빠른 방법입니다.” (FPM에서 BigQuery ML을 사용하는 비디오를 여기서 볼 수 있습니다.)

Hearst의 데이터 엔지니어링 & 머신 러닝 선임 디렉터 Naveed Ahmad는 “BigQuery를 사용하여 구독 데이터, 고객 서비스 데이터, 탐색 데이터, 뉴스레터 사용 등 여러 데이터 소스를 분석했습니다. BigQuery ML을 활용하여 우리의 고객과 컨텐츠에 최적화된 머신 러닝 모델을 구축하고 사용할 수 있게 되었습니다. 복잡한 머신 러닝 개념을 배우거나 여러가지 도구를 설정할 필요가 없기 때문에 몇 달이 걸릴 일은 몇 일안에 이루었습니다.” 라고 말했습니다.

앞으로 몇 주안에 BigQuery ML에 대해 자세히 살펴보고 비즈니스에 어떤 의미가 있는 지 알려드리겠습니다. 그 동안 우리 웹 사이트에서 자세한 내용을 보거나 현재 베타 버전인 BigQuery ML에서 체험을 해보세요.

 

[ BigQuery를 개선하여 데이터 활용을 확대하다 ]

익숙한 도구를 통해 확장된 기능을 제공하면 데이터 과학자와 데이터 분석가가 데이터를 가지고 더 많은 일을 할 수 있습니다. BigQuery에 몇 가지 새로운 기능이 추가되었습니다.

BigQuery 클러스터링은 현재 베타 버전입니다.

BigQuery 사용자는 광고 노출, IoT 기기 데이터, 게임 이벤트 또는 POS(point-of-sale) 거래 분석 여부에 관계없이 대규모 데이터 세트에서 빠른 분석을 기대합니다. 이제 사용자는 추가로 쉬운 데이터 최적화 레이어로 BigQuery에서 클러스터형 테이블 생성을 할 수 있습니다. 고급 카디널리티 영역에서 클러스터링 키를 정의하면 쿼리 성능이 크게 향상되고 쿼리 비용이 절감되며 광범위한 쿼리에 대한 쿼리 효율성이 향상됩니다.

클러스터 된 표에서 유사한 클러스터 키가 있는 행이 함께 묶어지므로 BigQuery는 전체 테이블이나 파티션이 아닌 BigQuery가 스캔한 데이터에 대해서만 더 효율적으로 데이터를 쿼리하고 그것에 대해 청구합니다.

클러스터링은 며칠동안 모든 BigQuery 사용자에게 배포됩니다.

 

BigQuery GIS를 사용한 새로운 지형 공간 데이터(Geospatial data) 유형 및 기능

 

지형 공간 데이터는 현대 IoT, 텔레매틱스, 소매 및 제조 작업 흐름의 핵심 요소입니다. 이에 BigQuery GIS (지리 정보 시스템)의 Google Earth Engine 팀과 파트너 관계를 맺어 지리 정보 데이터 유형 및 기능을 BigQuery의 일등 시민으로 통합했습니다. 현재 알파 버전으로 구현된 S2 라이브러리는 Google Earth Engine 및 Google 지도와 같은 제품을 통해 10억명이 넘는 사용자를 보유하고 있습니다.

새로운 기능과 데이터 유형은 SQL / MM Spatial 표준을 따르며 PostGIS 사용자와 이미 SQL에서 지형 공간 분석을 수행하고 있는 사용자에게 익숙합니다. 따라서 BigQuery로 작업을 마이그레이션이 쉬워집니다. 우리는 또한 WKT와 GeoJSON을 지원하기 때문에 다른 GIS 도구로 데이터를 쉽게 보내고 받을 수 있습니다.

Earth Engine 파트너십의 또 다른 이점은 BigQuery Geo Viz 라는 가벼운 시각화 도구와의 협력입니다. 이 기능은 지리 정보 쿼리 결과를 지도에 표시하고 스타일을 지정하려는 BigQuery 사용자를 위해 설계된 보조 앱입니다.

 

BigQuery Geo Viz 보기 기능과 New York Citibike Public Dataset 을 사용하여 도시 전역의 자전거 이용할 수 있는 정도와 역에 자리 수용성을 신속하게 지도화 할 수 있습니다.

BigQuery GIS 및 BigQuery Geo Viz는 현재 공개 알파 버전입니다. 양쪽 모두에 액세스를 요청하려면 이 양식을 작성하십시오 귀사의 GCP 프로젝트를 허용하고 BigQuery GIS 문서를 보내드립니다.

 

Google BigQuery 와 PostGIS를 비교하다

 

SPH는 CARTO, Google Maps, SuperMap 등 다양한 케이스에 적용될 수 있는 다채로운 제품군을 보유하고 있으며 고객의 사례에 꼭 맞는 무료 세미나 및 개별 컨설팅을 제공하고 있습니다. 각 케이스에 맞춰 더욱 자세한 이야기를 나누고 싶으시다면 여기에서 문의 주시길 바라며, SPH에서 발행하는 GIS/로케이션 인텔리전스 관련 최신 소식을 받아보고 싶으신 분들은 페이스북 페이지 또는 뉴스레터를 구독해 주시길 바랍니다. 감사합니다.