구글 빅쿼리 시각화: 대용량 공간 데이터 매핑

Google BigQuery Visualization: Mapping Big Spatial Data

구글 직소(Jigsaw)가 지원하는 GDELT 프로젝트는 100개 이상의 언어로 전 세계 거의 모든 국가의 방송, 인쇄 및 웹 뉴스를 모니터링하고, 매일 매초마다 사람, 위치, 조직, 테마, 감정, 카운트, 수, 인용, 이미지, 이벤트 등을 식별하는 무료 오픈 플랫폼입니다.

 

GDELT 프로젝트 시각화는 가장 자주 언급되는 25,000명의 화제의 인물과 그들 사이의 관계를 보여줍니다

 

최근 GDELT GEO 2.0 API를 지원하는 기본 데이터셋인 GDELT Global Geographic Graph가 출시되었습니다. 2017년 4월 4일부터의 전 세계 영어 온라인 뉴스보도에서 17억 개 이상의 위치 언급에 대한 내용을 포함하고 있습니다. 각 언급의 맥락과 용도에 대한 600자 문맥에 관한 토막글도 제공하여 상세한 내용을 담고 있습니다.

 

GDELT 프로젝트는 공개 연구를 위한 전 세계 인간 사회의 실시간 네트워크 다이어그램 및 데이터베이스입니다

 

GDELT가 작성한 이 게시물은 구글 빅쿼리와의 통합이 어떻게 이 거대한 데이터 세트를 매핑하는 데 활용될 수 있는지에 대해 조사합니다. 이 게시물은 전염병이 유행하는 동안 서로 다른 지역의 COVID-19 뉴스 취재에 초점을 맞춥니다.

Global Geography Graph는 2017년까지 전세계 영어 뉴스 보도에서 17억 개 이상의 위치 언급 정보를 보유하고 있으며, 이로 인해 세계 뉴스의 지리 지도를 만들 수 있게 되었습니다.

Global Geographic Graph에서 맵을 생성하는 작업에는 전통적으로 BigQuery SQL 쿼리를 실행하여 결과를 컴파일하고 CSV 파일로 다운로드한 다음 CARTO로 해당 파일을 가져와 실제 맵을 생성하는 작업이 포함되었습니다. 그러나 CARTO에는 실제로 BigQuery 커넥터가 내장되어 있으므로 CARTO에 SQL 쿼리를 직접 붙여넣기만 하면 됩니다. CARTO는 BigQuery에서 쿼리를 실행하고 결과를 지도에 완벽하게 다운로드하며 고정된 내부에서도 쿼리를 다시 실행하여 지도를 지속적으로 동기화할 수 있습니다!

5월 한 달 동안 COVID-19와 관련된 영어 뉴스 보도에서 언급된 위치 지도를 만들고 싶다고 가정해 보겠습니다. CARTO 계정에 로그인한 후 “New Dataset”을 선택하고 데이터소스로 “BigQuery”를 클릭한 다음 “Connect” 버튼을 클릭합니다. 그럼 아래와 같은 대화 상자가 표시됩니다:

 

“Billing Project ID” 드롭다운에는 구글 클라우드 프로젝트 목록이 자동으로 표시됩니다(BigQuery의 쿼리가 청구될 할당량에 대한 프로젝트). 그런 다음 SQL 조회 상자에 쿼리를 붙여넣고 새 CARTO 데이더셋의 이름을 선택한 다음 “Connect to BG”를 클릭합니다. 그럼 이게 끝입니다! 여기까지 완료하면 CARTO가 BigQuery로 쿼리를 보내어 실행할 수 있도록 하고, 몇 분 안에 결과가 다시 CARTO로 스트리밍되어 새 데이터셋을 채우게 됩니다.

실행할 실제 쿼리는 다음과 같습니다(국가 레벨 일치를 위해 “GeoType > 1” 사용).

SELECT ST_GeogPoint(Lon, Lat) as the_geom, count(1) Cnt FROM `gdelt-bq.gdeltv2.ggg` where (ContextualText like ‘%COVID%’ and ContextualText like ‘%coronavirus%’)and GeoType>1 and DATE(DateTime) >= “2020-05-01” AND DATE(DateTime) <= “2020-05-31” group by Lat,Lon order by Cnt desc limit 10000

쿼리의 시작 부분에 있는 “ST_GeogPoint(Lon, Lat) as the_Geom”은 위도 및 경도 좌표를 취하여 지리 “점” 유형으로 변환합니다.

또는 Global Geography Graph에 “the_gem”이라는 GERIORY 열이 이미 있으므로 다음을 사용할 수도 있습니다.

 

SELECT ANY_VALUE(the_geom) as the_geom, count(1) Cnt FROM `gdelt-bq.gdeltv2.ggg` where (ContextualText like ‘%COVID%’ and ContextualText like ‘%coronavirus%’) and GeoType>1 and DATE(DateTime) >= “2020-05-01” AND DATE(DateTime) <= “2020-05-31” group by TO_JSON_STRING(the_geom) order by Cnt desc limit 10000

여기서와 같이 지리 열을 기준으로 그룹화하는 것은 대부분의 관찰/표본된 지리 데이터의 부정확한 특성 때문에 매우 나쁜 관행이라는 점을 기억해야 합니다. GPS 지점을 수집할 때, 정지된 물체는 GPS 지터(jitter)로 인해 실제 위치 주변의 작은 반지름에서 계속 움직이는 것처럼 보일 수 있으며, 표본 추출의 부정확성과 오류는 서로 약간 다른 점들의 군집을 산출할 수 있습니다.

그리드에 스냅하는 것만으로는 그리드 해상도에 관계없이 점 군집이 원형 좌표로 분할되기 때문에 이 문제가 해결되지 않습니다. Global Geography Graph의 경우, 모든 위치는 중심 기반 지명 사전에서 추출됩니다. 프랑스 파리에 대한 모든 참조는 항상 정확하게 동일한 좌표를 산출합니다. 따라서 여기서는 좌표를 기준으로 안전하게 그룹화할 수 있습니다. 그러나 다른 종류의 데이터는 이에 대해 강력하게 반대합니다. 이러한 종류의 “상위 N” 그룹을 수행하기 위해 관측된 GIS를 사용할 경우 먼저 점을 군집화해야 합니다.

몇 분 안에 데이터가 표준 CARTO 테이블로 표시되고 데이터를 즉시 매핑할 수 있습니다.

그러나 각 위치를 언급하는 상위 5개 기사를 표시하는 대화형 클릭 가능한 지도를 만들려면 어떻게 해야 할까요?

아래 쿼리는 위치별로 상위 5개 기사를 선택하여 제목과 URL을 HTML 블록에 연결하고 해당 소셜 미디어 이미지 중 하나를 헤더 이미지로 선택합니다.

select ST_GeogPoint(Lon, Lat) as the_geom, ARRAY_TO_STRING(ARRAY_AGG(Art ORDER BY cnt DESC LIMIT 5), ‘<BR><BR>’) Articles, max(SharingImage) SharingImage, APPROX_TOP_COUNT(Loc, 1)[OFFSET(0)].value LocationName, Count(1) NumMentions from (

select CONCAT(‘<a href=”‘, min(URL), ‘” target=”blank”>’,max(Title),'</a>’) Art, Lat, Lon, max(SharingImage) SharingImage, APPROX_TOP_COUNT(Location, 1)[OFFSET(0)].value Loc, count(1) cnt FROM `gdelt-bq.gdeltv2.ggg` WHERE (ContextualText like ‘%COVID%’ and ContextualText like ‘%coronavirus%’) and GeoType>1 and DATE(DateTime) >= “2020-05-01” AND DATE(DateTime) <= “2020-05-31” group by LOWER(Title), Lat, Lon

) group by Lat, Lon order by NumMentions desc limit 10000

 

다시 한 번 데이터를 CARTO 데이터셋으로 가져옵니다. 4월에 사용한 것과 동일한 지침에 따르면 (그러나 이번에는 데이터를 CSV로 저장하고 CARTO에 다시 로드하는 부분을 건너뜁니다. 이제 그럴 필요가 없으니까요!) 아래와 같은 대화형 지도를 얻을 수 있습니다.

커넥터에서 입증되었듯이 데이터를 연결하고 CARTO 플랫폼에서 사용할 수 있도록 하려면 BigQuery에서 SQL 조회만 입력하면 됩니다. 이를 통해 쉽게 시각화, 공간 분석 및 빌드 애플리케이션을 수행할 수 있습니다.

 

SPH는 CARTO, Google Maps, SuperMap 등 다양한 케이스에 적용될 수 있는 다채로운 제품군을 보유하고 있으며 고객의 사례에 꼭 맞는 무료 세미나 및 개별 컨설팅을 제공하고 있습니다. 각 케이스에 맞춰 더욱 자세한 이야기를 나누고 싶으시다면 여기에서 문의 주시길 바라며, SPH에서 발행하는 GIS/로케이션 인텔리전스 관련 최신 소식을 받아보고 싶으신 분들은 페이스북 페이지 또는 뉴스레터를 구독해 주시길 바랍니다. 감사합니다.

소매업 분석: SNS & 신용카드 데이터 결합

 

COVID-19의 영향이 모든 산업, 특히 소매업에서 계속해서 나타나고 있습니다. 기록적인 판매 하락이 이어지고 있는 지역도 있는 반면, 회복될 조짐을 보이는 지역도 있습니다.

예를 들어 싱가포르의 5월 총 소매 판매는 52.1%나 감소한 반면, 유럽의 가장 큰 경제국인 독일은 규제 완화 이후 13.9%의 기록적인 증가를 보였습니다. 앞서 말한 바와 같이, 이러한 차이점들은 바이러스 확산의 불균형때문에 나타난 것일 수 있습니다. 그럼에도 불구하고 소매업체가 생존하고 발빠르게 대응하기 위해서는 기술에 투자하고 소비자 데이터를 탐구해야하는 것만은 분명합니다.

 

 

 

최근 Spatial.ai의 지리사회적 데이터와의 통합으로, 이제 고객들은 다양한 행동 데이터재무, 유동인구 및 인구 통계와 같은 다양한 범주의 데이터 간의 관계와 패턴을 탐색하여, 위치에 대한 새로운 통찰력을 제시할 수 있게 되었습니다. 본 사례 연구에서는 신용카드 거래 데이터와 지리사회적 데이터가 어떻게 상호작용하는지를 연구하여 SNS와 레스토랑 매출과의 관계를 파악했습니다. 소매업체가 지역에 따라 설치 공간을 최적화하는 데 도움이 될 수 있는 시장 차이를 조명합니다.

SNS가 사람들이 감정, 의견, 관심을 세계에 표현하는 장이 되면서, 이는 사람들이 특정 장소에 있을 때 어떻게 행동하는지를 보여주는 귀중한 정보 원천이 되었습니다. Spatial.ai는 포스팅, 트윗, 스토리 등에서 나온 방대한 양의 정보를 70개가 넘는 소셜 세그먼트 세트로 변환했습니다.

이와 동시에, 집계된 신용카드 거래 패턴은 소비자 행동과 어떻게 소비자들이 시간과 공간에 따라 변화했는지를 이해하는 데 중요한 역할을 합니다. 마스터카드 지리정보 인사이트는 모든 소매업 분야의 소비자 지출의 변화를 측정하기 위해 매우 세밀한 측정 기준을 제공하여, 위치의 판매 기반 역학을 검증, 평가 및 벤치마킹 할 수 있도록 합니다.

이번 분석에서, 신용카드 거래와 지리 사회적 데이터의 관계뿐 아니라, 이러한 관계가 시장마다 어떻게 변화하는지도 알아보았습니다. 이러한 질문에 답하기 위해, LA와 시카고의 대도시 지역 데이터를 선택하여 공통점과 차이점을 조사해보았습니다.

먼저 신용카드 지출 데이터를 살펴본 결과, 레스토랑 매출 상위 지역을 파악할 수 있었습니다.

 

 

위의 지도에서 보듯이 시카고의 최고 매출 레스토랑은 주로 시내에 위치해있습니다. 반면 LA에서는 도시 전역에 퍼져있습니다. 시카고에서 저조한 매출을 기록한 식당이 최고 매출 식당과는 어떤 차이가 있는지, LA에서는 어째서 도시 전역에 최고 매출 식당이 퍼져있는지 한번 알아보았습니다.

분석을 위해, 가장 많은 매출을 올리는 지역을 알아보았습니다. 이 지역은 어떤 지역인가? 다행히도, 지리적 데이터는 이 질문에 정량적으로 답하는 데 도움이 될 수 있었습니다. 다음 차트는 신용카드 지출이 더 많은 식당이 위치한 지역에 대한 지역 사회 점수를 집계한 것입니다.

 

차트를 보면 최상위 레스토랑이 위치한 지역은 같은 사회적 세그먼트를 공유하고 있다는 것을 알 수 있습니다: LGBTQ 문화, 부의 신호, 남성 스타일, 와인 애호가. 이러한 세그먼트는 아주 흥미롭습니다. 이는 모두 트렌드, 도시성, 그리고 부에 대한 이야기를 들려줍니다.

물론 상위 세그먼트에는 몇 가지 차이점이 있습니다. LA에서 예상할 수 있듯, 영화 애호가들이 탑 세그먼트로 등장하고 있습니다. 이러한 차이점들은 아마도 서로 다른 부분들이 각 시장에서 레스토랑의 성공을 보여주는 긍정적인 지표라는 것을 암시합니다. 이를 알아내기 위해 가장 좋은 단계는 지리적 영역과 레스토랑 매출 데이터 사이의 상관 관계를 살펴보는 것입니다. 아래의 도표는 모든 상관 관계가 가장 강하고 두 도시간의 차이가 가장 큰 35개의 지리사회 분포를 보여줍니다. 도표는 시카고의 상관 계수에 따라 분류했습니다.

 

 

이 차트에는 많은 정보가 함축되어 있습니다. 이 포스팅에서 알 수 있는 그 이상의 것들이요. 이번 포스팅에서는 두 가지 주요한 사항에만 초점을 맞춰봅시다.

 

 

LA와 시카고의 레스토랑 매출에 관련된 강력한 사회적 행동 찾아내기

영화 러버, LGBTQ 문화, 요가 애호가와 같은 세그먼트를 보면, 레스토랑과 이들 세그먼트 간의 연관성은 시카고보다 LA에서 높습니다. 대부분의 세그먼트는 두 도시의 시장에서 같은 의미를 지니지만, 몇 가지는 다릅니다. 예를 들어, 파티 라이프는 LA에서는 매출에 긍정적인 영향을 주었지만, 시카고에서는 부정적인 연관성이 발견되었습니다.

시카고에서 비교적 좋은 영향을 끼친 세그먼트는 주로 풍경이나 관광지와 높은 연관성이 있었습니다. 볼 만한 관광지와 내추럴 뷰티는 시카고에서 긍정적인 연관성이 있었지만, LA에서는 아니었습니다.

이러한 차이는 두 도시의 입지 결정에 엄청난 영향을 미칩니다. 위의 결과에 따르면 같은 세그먼트에 기반하여 두 도시의 레스토랑 위치를 결정하는 것이 반드시 옳은 일은 아닙니다.

중서부와 시카고에 비해 진보적인 성향을 보이는 캘리포니아와 LA의 문화는 반문화적인 부분들이 식당 매출에 영향을 미칠 수 있음을 보여줍니다.

이 결과에서 보이는 가장 흥미로운 패턴은, 때때로 논쟁의 여지가 있거나 심지어 반문화적으로 보이는 부분들이 시카고보다 LA에서 더 큰 영향을 끼친다는 것입니다. 예를 들어 바디 아트, 힙합 컬처, 힙스터, 파티 라이프, 액티비즘 등은 모두 시카고보다 LA의 레스토랑에서 더 높은 상관 관계를 보였습니다.

상관 관계가 인과 관계를 의미하지는 않습니다. 하지만 어떠한 데이터가 왜 그런 결과를 만들었는지에 대한 가설을 세우는 것은 흥미롭고 유용한 일입니다. 이번 사례에서는 LA의 진보적인 문화는 열거된 행동을 보다 폭넓게 수용하고 있기 때문에, 이러한 행동이 식당 매출에 부정적인 영향을 줄 가능성이 적다는 가설을 세울 수 있습니다.

 

 

판매 잠재력을 평가하기 위한 로컬 인사이트

지리 데이터와 신용카드 거래 간의 관계를 보면 사람들의 사고방식, 관심사 및 행동이 특정 지역의 판매 잠재력과 관계가 있음을 알 수 있습니다. 분석에 인구통계학적 데이터만 사용하는 것은 각 커뮤니티의 고유성에 대한 더 큰 그림을 놓칠 수 있습니다. 이러한 분석을 통해 LA와 시카고의 레스토랑 매출은 같은 특성을 공유하기도 하지만, 차이점도 있다는 것을 알 수 있었습니다. 또한 이러한 차이를 고려하지 않거나 고려할 수 없는 경우 최적의 결과를 얻을 수 없습니다.

지리사회 데이터와 재무 데이터를 함께 분석함으로써 지역 주민만이 알 수 있는 정량화된 인사이트를 얻을 수 있습니다. 시카고의 경우 내추럴 뷰티 및 주요 관광지와의 접근성이 레스토랑 성공의 좋은 지표라는 것을 발견하는 것은 레스토랑 매출 데이터와 지리학적 변수를 연관시키는 것만큼이나 쉬웠습니다. 이는 분명해보일 수 있지만, 다른 방법으로 정량화하는 것은 매우 어렵습니다. 또한 LA에서는 동일한 상관관계가 그만큼 강하게 나타나지 않았다는 것도 주의하세요.

 

SPH는 CARTO, Google Maps, SuperMap 등 다양한 케이스에 적용될 수 있는 다채로운 제품군을 보유하고 있으며 고객의 사례에 꼭 맞는 무료 세미나 및 개별 컨설팅을 제공하고 있습니다. 각 케이스에 맞춰 더욱 자세한 이야기를 나누고 싶으시다면 여기에서 문의 주시길 바라며, SPH에서 발행하는 GIS/로케이션 인텔리전스 관련 최신 소식을 받아보고 싶으신 분들은 페이스북 페이지 또는 뉴스레터를 구독해 주시길 바랍니다. 감사합니다.

런던 vs 뉴욕: 어느 도시의 평균 건물 높이가 더 높은가요? (+상권 분석, 입지 선정)

 

런던 vs 뉴욕. 이 두 상징적인 도시에 대해 많은 비교가 이루어졌습니다. 크기, 인구와 같은 요소는 말할 것도 없고, 삶의 질이나 최고의 피자집 같은 것들에 대한 비교도 있었습니다. 하지만 CARTO에서는 런던과 뉴욕의 부동산의 차이점에 대한 통찰력을 제공하기 위해 공간 데이터를 살펴보기로 했습니다.

이를 위해 지난 포스팅(지난 10년간 영국에 건설된 150만 채의 신규 주택 지도)에서 함께 작업했던 주택 및 공간 정보 전문가 Dan Cookson과 한번 더 함께 했습니다.

 

데이터 시각화

뉴욕시에는 총 6,000개 이상의 고층 빌딩이 있는데, 그 중 274개는 150m가 넘는 초고층 빌딩입니다. 그에 비해 런던에는 33개의 고층 빌딩 밖에 없기 때문에, 사람들은 뉴욕의 평균 건물 높이가 더 높다고 추측할 수도 있습니다. Dan은 이 가정을 테스트하고 뉴욕시 공공 데이터, Ordnance Survey Emu Analytics의 오픈 소스 데이터를 사용하여(OS Open Map Environment Agency LIDAR 데이터를 결합하여 런던에 유용한 빌딩 높이 데이터셋을 생성) 아래 나온 두 가지 맵을 만들 수 있었습니다.

 

 

 

맨해튼 중심부와 런던 중심부를 확대 해보면 뉴욕의 평균 건물 높이가 더 높다는 것을 볼 수 있습니다. 그러나 도시 경계까지 축소를 해 본다면, 두 도시 모두 사실은 8m가 조금 넘는 매우 비슷한 수치를 보인다는 것을 알 수 있습니다.

만약 다음 줌 퀴증 대한 어려운 질문을 찾고 계시다면, 이게 좋겠네요. 어느 도시의 평균 건물 높이가 더 높을까요? 답: 둘 다 아님 – 사실 같음.

 

 

추가 분석

추가 분석을 수행하면 뉴욕시의 5개 자치구에 걸쳐 몇 개의 낮은 건물이 있는지를 알 수 있으며, 쌍 최대치(Twin Peaks) 분포를 확인할 수 있습니다.

런던에 대해 동일한 분석을 수행하면 건물 높이 분포에서 유사하지만 덜 유의미한 쌍 최대치가 나타납니다. 그 이유 중 하나는 런던에 대한 건물 설치 공간 데이터가 낮은 건물 및 차고지를 포함하는 뉴욕의 데이터보다 덜 상세하기 때문일 수 있습니다.

이러한 유형의 건물 높이 분석과 지역 인구 밀도를 결합함으로써 우리 도시의 실제 거주 밀도를 더 잘 이해하고 설명할 수 있습니다. 이것은 세계 COVID-19 감염률이 도시 인구 규모와 밀도, 또는 실제 가구 규모와 어떤 관련이 있는지 알아내는 데도 도움이 될 수 있습니다.

 

 

건물 높이 분석은 부동산에서 쓰이는 하나의 지리 공간 예시입니다. 팀이 고려해야 할 연구에는 훨씬 많은 것들이 있습니다.

 

 

상업 시장 분석

대규모 CRE 회사 & REITS의 연구 및 데이터 사이언스 팀은 공간 분석에 의존하여 투자 전략의 품질을 개선하는 시장 통찰력을 제공합니다. 사무실, 상업용, 가정용 또는 소매용이든, 새로운 종류의 위치 데이터를 이용하여 기회를 확인하고, 수익률을 예측하여 점점 더 경쟁적인 시장에서 우위를 점할 수 있습니다.

 

상권 분석

인수합병에서 상권은 기존 또는 잠재적 사업장과 관련하여 잠재적인 인수 체인의 고객이 어디에 살고 있는지를 파악하는 데 필수적입니다. 분석가는 비즈니스 사이트와 연구 지역의 가구 수 사이의 거리별 고객 수를 비교함으로써 투자가 있을 수 있는 기회 또는 기존의 포트폴리옹 회사가 사라질 수 있는 가능성을 신속하게 알 수 있습니다.

 

 

입지 선정

입지 선정 과정에서 여러 위치 데이터 스트림을 이용하는 것은 최종 고객의 유입 및 상권을 이해하는 데 있어 매우 중요합니다. 소매업, 기업 사무소 또는 산업 단지 등, 모든 판매와 임대에 대해 가격을 정당화하는 것이 그 어느 때보다 중요합니다. 신용카드 거래나 인구 이동과 관련된 새로운 데이터셋을 가져오는 것은 빅딜을 성사시키느냐, 아니면 경쟁 업체에 빼앗기느냐를 결정할 수 있습니다.

 

 

 

SPH는 CARTO, Google Maps, SuperMap 등 다양한 케이스에 적용될 수 있는 다채로운 제품군을 보유하고 있으며 고객의 사례에 꼭 맞는 무료 세미나 및 개별 컨설팅을 제공하고 있습니다. 각 케이스에 맞춰 더욱 자세한 이야기를 나누고 싶으시다면 여기에서 문의 주시길 바라며, SPH에서 발행하는 GIS/로케이션 인텔리전스 관련 최신 소식을 받아보고 싶으신 분들은 페이스북 페이지 또는 뉴스레터를 구독해 주시길 바랍니다. 감사합니다.

COVID-19 회복 분석에 사용 가능한 새로운 위치 데이터

 

세계보건기구가 COVID-19에 대해 팬데믹을 선언한지 두 달 이상 지났습니다. 전 세계 정부는 코로나 바이러스가 더 이상 퍼지는 것을 막기 위해 사람들이 집에 머물도록 하는 전례없는 조치를 취해야 했습니다. 자가 격리 조치가 바이러스의 재생산 비율을 조절하는 데 효과적이고 수십만 명의 생명을 구하는 데 도움을 준 것으로 입증되었으나, 세계 및 지역 차원의 경제에는 큰 타격을 주었습니다

몇 주간의 엄격한 락다운 조치 이후, 일부 정부는 현재 점진적인 경제 활동 재개 계획을 시행하고 있으며, 동시에 재택 조치도 서서히 해제되고 있습니다. 코로나 바이러스 발생이 다른 지역에 비해 일부 지역에서 더 많은 혼란을 일으켰던 것과 마찬가지로, 뉴 노멀로 접어들기 위한 이 계획은 모든 나라에 동시에 적용되지는 않을 것입니다.

로케이션 인텔리전스는 이미 바이러스 확산의 특성을 이해하는 데 중요한 역할을 수행했으며, 이처럼 불확실한 시기에 보다 효과적으로 대응할 수 있는 도구가 되었습니다. 이제 다음 단계로 나아가면서, 새로운 현상에 적응하고 리소스를 최적화할 때 행정부가 보다 정보에 입각한 의사결정을 내릴 수 있도록 지원함으로써 새로운 차원의 주목을 받을 것입니다.

 

Data Observatory에서 사용 가능한 새로운 공용 데이터셋

과학자와 분석가가 빠르게 변화하는 환경을 이해하는 데 도움이 될 인사이트를 얻을 수 있도록, CARTO팀은 Data Observatory의 새로운 공공 데이터셋을 포함한 데이터 공급 네트워크와 지속적으로 협력하고 있습니다.

 

감염률 및 위험 요인

Data Observatory에서 이용 가능하게 될 새로운 데이터셋 중 하나는 영국의 건강과 가구 데이터 공급업체 Doorda가 관장하는 것입니다. 이 데이터셋은 위험 요인(나이, 거주자 수, 흡연 습관 등) 및.COVID-19 감염률을 지역별로 추정하여 제공합니다. 주간 업데이트 덕분에 이 데이터셋은 영국 코로나 바이러스의 공간과 시간에 미치는 영향을 사회 경제적으로 분석할 수 있게 합니다.

 

 

 

소셜 미디어 반응

COVID-19의 발병은 우리의 일상 활동을 크게 변화시켰고, 평소에 하던 사회 활동의 루틴을 바꿔야만 했습니다. 지난 몇 개월 간 SNS와 디지털 플랫폼에서 사람들이 의사소통한 양상을 보면 이러한 모든 변화를 온라인에서 확인할 수 있습니다. 미국에 본사를 둔 지리 사회 데이터 제공업체인 Spatial.ai는 COVID-19를 언급하는 소셜 미디어 게시물의 정서를 분석하는 데이터셋을 구축했습니다. VADER(Valence Aware Dictionary and Sensitive Reasoner) 모델을 사용하여 계산된 정서 지표는 미국 카운티 별로 집계되고 매주 업데이트됩니다. 역학 지표과 카운티 별 자가격리 수준과 함께 소셜 미디어 정서를 활용하는 것은 사람들의 기분과 행동에 바이러스가 어떤 영향을 미치고 이것이 어떻게 진화하는지를 분석하기 위한 새롭고 통찰력 있는 방법입니다.

 

 

 

유동 인구 데이터

유동 인구 데이터는 COVID-19 위기 동안 가장 큰 영향력 있는 요소 중 하나였습니다. 이를 제한하는 것이 바이러스가 더 이상 퍼지는 것을 막는 가장 효율적인 방법 중 하나라는 것이 증명되었기 때문입니다. 이 주제에 대한 많은 언론 기사에서 볼 수 있듯이, 휴대 전화에 설치된 특정 앱에 의해 포착된 위치 신호의 집계를 바탕으로 한 인구 이동 데이터의 분석은 언론인, 연구가, 행정기관 등이 사회적 거리두기 시책의 유효성을 측정하기 위해 사용하는 가장 강력한 자원 중 하나였습니다. 또한 이 데이터는 소매 영역의 방문 패턴 변화를 측정하여 분석가들이 생필품의 재고를 이해하는 데에도 사용되고 있습니다.

애플의 이동 동향 보고서는 2020년 1월 13일 발행본과 비교하여 국가, 지역, 도시별 애플 지도의 길찾기 요청량을 보여주는 일일 지표를 제공합니다. CARTO 팀은 애플의 보고서에 추가적으로 다른 출처의 위치 데이터를 활용하여 데이터에 자세히 나와 있는 서로 다른 지리적 지역을 지오코딩하는 작업에 착수했습니다.

CARTO의 유동 인구 데이터 파트너 UnacastSafegraph는 다양한 공간 집합에서 이동을 측정한 특수 COVID-19 관련 데이터셋을 무료로 제공함으로써 연구 기관, 비영리 단체, 공공 기관 등의 연구에 힘을 실어주었습니다. 파트너들과의 긴밀한 협업을 통해, 이 데이터 프로덕트는 이제 “Data for Good” 이니셔티브에 참여하는 기관과 영리 조직의 상업적 라이센스 하에 CARTO의 Data Observatory를 통해 제공될 수 있습니다. CARTO의 플랫폼은 보조금 프로젝트를 통해 코로나 바이러스에 대한 연구를 수행하는 공공 및 민간 부문 기관에서도 사용할 수 있습니다.

Uncast의 사회적 거리두기 측정 지표는 현재 미국, 영국, 브라질, 멕시코, 프랑스를 포함한 몇몇 국가들의 경우 지역 차원에서 이용할 수 있습니다. 참고로 미국의 지표는 카운티 수준에서 집계되었으며 평균 이동 거리 변화 및 사람과의 만남 확률 변화에 대한 일일 측정값을 제공합니다.

SafeGraph는 블록 그룹 수준에서 집계된 지표로 사회적 거리두기 데이터셋을 구성했습니다. 매일 업데이트되며, 미국에 집중되어 있습니다. SafeGraph 데이터는 집에서 이동한 평균 거리, 하루종일 집에서 사용한 기기의 비율, 다른 사람들이 집 밖에서 보내는 시간 분포 등에 대한 정보를 제공합니다. 추가적으로 SafeGraph는 패턴 데이터셋의 “라이트” 버전을 COVID-19 연구에 필요한 리소스로서 매주 제공하고 있습니다.

 

 

저희가 Google Colab를 통해 공유하는 이 노트북은 위에서 언급된 CARTO의 Data Observatory 및 Google BigQuery에서 공개된 데이터셋에 접근하는 방법을 설명하고 있습니다.

 

SPH는 CARTO, Google Maps, SuperMap 등 다양한 케이스에 적용될 수 있는 다채로운 제품군을 보유하고 있으며 고객의 사례에 꼭 맞는 무료 세미나 및 개별 컨설팅을 제공하고 있습니다. 각 케이스에 맞춰 더욱 자세한 이야기를 나누고 싶으시다면 여기에서 문의 주시길 바라며, SPH에서 발행하는 GIS/로케이션 인텔리전스 관련 최신 소식을 받아보고 싶으신 분들은 페이스북 페이지 또는 뉴스레터를 구독해 주시길 바랍니다. 감사합니다.

 

 

미국 시위 & 경찰 폭력 시각화 (#BlackLivesMatter)

얼마 전 조지 플로이드가 경찰 구금 중에 비극적으로 사망한 사건으로 시작된 시위가 미국 전역으로 확대되었습니다. 다른 사회적 문제와 마찬가지로, 경찰 폭력의 규모를 이해하려면 데이터를 분석하고 시각화해야 합니다. 이것이 경찰 폭력 맵핑입니다. 직접 이런 작업을 수행하고 싶다면 CARTO grant를 신청하여 #BlackLivesMatter 운동의 일환으로 지도를 작성할 수 있습니다.

 

 

경찰 폭력 맵핑

2019년 미국에서 경찰이 1099명의 시민을 죽였습니다. 흑인은 인구의 13%에 불과함에도 불구하고 사망자의 24%를 차지했습니다.

이 수치는 경찰 폭력이 지역 사회에 미치는 영향을 계량하기 위해 전국 경찰 살인에 대한 종합적인 자료를 수집한 공동 연구 Mapping Police Violence에 의해 발표되었습니다.

수집한 데이터는 가장 규모가 크고, 포괄적이며, 공정한 세 개의 크라우드 소싱 데이터베이스로부터 가져왔습니다.

 

또한 이 데이터 외에도, 소셜 미디어, 부고 자료, 범죄 기록 데이터베이스, 경찰 보고서 및 기타 출처를 검색하여 데이터베이스 내 전체 피해자의 90%를 식별하는 등 데이터의 품질과 완전성을 더욱 향상시키기 위해 광범위한 독창적인 연구를 수행했습니다.

아래의 애니메이션 지도는 2019년에 일어난 경찰 살인 사건을 시각화한 것입니다.

 

 

 

 

소셜 미디어 반응 맵핑

최근 게시물에서 Spatial.ai와 같은 제공업체의 위치 기반 소셜 미디어 데이터 (Geosotial 데이터)를 분석하고 시각화할 수 있는 방법을 살펴 보았습니다.

지난 주 #ICANTBreathhe, #BlackLivesMatter 및 #HandsUpDontShoot 를 포함한 해시태그 트렌딩을 아래 지도에 시각화했습니다.

 

 

이 시각화는 미국에서 일어난 사건이 미국 국경을 훨씬 넘어서까지 퍼지고 있다는 것을 보여줍니다. 베를린, 런던, 토론토 등 다른 국가의 도시에서도 수많은 시민들도 #BlackLivesMatter 운동에 힘을 실어주기 위해 시위에 나선 것을 알 수 있었습니다.

 

 

 

시위 맵핑

뉴욕 타임즈에서 말표한 아래 지도는 발행한 날짜(5월 31일)에 일어난 시위의 규모를 보여줍니다. 시위는 140개 도시로 확산되었으며 21개 이상의 주에 국가 방위군이 배치되었습니다.

 

 

CARTO는 인종차별과 혐오를 반대하는 지역 사회와 연대합니다. CARTO는 보조금 프로그램을 통해 인종 평등을 달성하기 위한 데이터를 시각화하거나 지리 공간 분석을 수행하는 비영리 단체들을 장려하고 있습니다.

 

 

SPH는 CARTO, Google Maps, SuperMap 등 다양한 케이스에 적용될 수 있는 다채로운 제품군을 보유하고 있으며 고객의 사례에 꼭 맞는 무료 세미나 및 개별 컨설팅을 제공하고 있습니다. 각 케이스에 맞춰 더욱 자세한 이야기를 나누고 싶으시다면 여기에서 문의 주시길 바라며, SPH에서 발행하는 GIS/로케이션 인텔리전스 관련 최신 소식을 받아보고 싶으신 분들은 페이스북 페이지 또는 뉴스레터를 구독해 주시길 바랍니다. 감사합니다.

 

 

21대 국회의원 선거 지도 2탄! – 지도 가공 및 시각화 과정 & 당선 득표율 지도

국회의원 선거 지도 포스팅 1탄 28년만에 가장 높은 총선 투표율! 21대 국회의원 선거결과 지도로 ‘시각화’하여 보기 !! 에 이어, 이번 포스팅에서는 선거 지도를 만드는 과정과 방법에 대해 소개해드리겠습니다.

선거 지도 만들기는 갑자기 결정된 프로젝트라 시간이 너무 오래 걸리거나 어려울까봐 걱정을 했었는데요, CARTO를 통해 걱정과는 달리 빠르고 쉽게 지도를 완성할 수 있었습니다.

지난 포스팅에서는 당선 당/ 당선자 이름을 쉽게 볼 수 있도록 헥사빈 지도를 보여드렸습니다. 이번에는 한 눈에 투표율을 확인할 수 있도록 시/도 구분 지도를 보여드리도록 하겠습니다.

CARTO는 GIS 전문가가 아니더라도 쉽게 지도를 만들 수 있는 툴이니까요, 이번 포스팅을 보시고 한 번 직접 지도를 만들어 보는 것도 좋을 것 같네요!

 

 

전국 투표율 지도

 

1.데이터 수집

지도를 만들려면 우선 필요한 데이터를 수집해야 겠죠?

21대 국회의원 관련 정보는 중앙선거관리의원회의 선거통계시스템에서 얻을 수 있습니다.

 

 

 

 

2. 데이터 CARTO에 Import하기

 

데이터를 엑셀파일로 정리하셨다면 바로 CARTO에 import할 수 있습니다. 엑셀 파일 외에도 csv, shape 파일 등을 import할 수 있습니다.

21대 국회의원선거 데이터와 지도 데이터가 준비되었다면 이제는 CARTO에서 데이터를 가공해 지도를 만들면 됩니다.

 

CARTO는 DB를 PostgreSql을 사용하고 있어서 PostgreSql에서 사용되는 모든 SQL을 사용할 수 있습니다. 21대 국회의원 선거 데이터와 선거구 지도 데이터를 Join해서 데이터를 생성한 후 Create Map 버튼을 클릭해서 지도를 생성합니다.

또한 CARTO에세는 PostGIS 함수를 이용해서 지도 데이터를 가공할 수 있습니다. 선거구 Polygon 데이터가 있으면 해당 선거구를 시군구명으로 그룹 지어서 ST_UNION() 함수를 사용해서 시군구 경계를 만들 수 있습니다.

 

3. 지도 커스텀하기

데이터를 다 준비해 기본 지도를 생성했다면 CARTO를 이용해서 지도 스타일을 간편하게 설정할 수 있으며, 팝업과 위젯도 생성할 수 있습니다.

 

 

지도 스타일은 기본 제공되는 스타일 말고도 CARTO css를 직접 작성해서 커스텀할 수 있습니다. 지도에서는 일정 줌 레벨이 되면 원하는 라벨이 표시되도록 설정할 수 있습니다.

 

HTML태그를 이용해서 팝업을 기본 팝업에서 상단의 제목을 시도명과 선거구명이 같이 합쳐져서 나오도록 수정했습니다.

 

CARTO에서는 여러 가지 기본 위젯을 제공합니다. 원하는 위젯 모양과 어떤 데이터를 보여줄 것인지 선택하면 간단하게 위젯을 생성할 수 있습니다.

 

 

위젯은 총 유권자, 총 투표 수, 투표율 분포, 시도 구분을 추가했습니다.

투표율 분포는 기본으로 제공되는 HISTOGRAM 위젯에 투표율을 표시한 것입니다.

투표율 분포의 그래프에서 일정 영역을 선택하면 해당 투표율 범위의 지역만 지도에 표시됩니다.

 

 

시도 구분 위젯은 기본으로 제공되는 CHOOSE THE WIDGET TYPE 위젯에 각 선거구의 시도명을 COUNT로 집계해서 표시한 것입니다.

시도 구분 위젯에서 원하는 지역을 선택하면 해당 지역만 지도에서 볼 수 있습니다.

그 밖에도 CARTO에서는 기본 제공되는 베이스맵, 범례, 지도 데이터 분석 기능 등이 있어 가지고 있는 데이터를 사용해서 지도를 마음대로 커스텀 할 수 있습니다.

 

 

당선 득표율 지도

비슷한 방식으로 이번에는 ‘당선 득표율 지도’까지 만들어보았습니다. 당선된 각 후보가 어떤 득표율로 당선되었는지도 궁금하지 않으셨나요? 지도로 한 눈에 살펴볼 수 있습니다.

 

먼저 전체 지도의 모습입니다.

오른쪽에 총 투표율과 당선 투표율 분포 위젯이 있는데요, 이 위젯으로 보고싶은 투표율 구간을 선택하면 지도에 바로 반영됩니다.

 

저는 가장 큰 득표율로 당선된 곳이 어딘지가 제일 궁금했는데요, 오른쪽에 득표율 81-84.1% 구간을 클릭해보았습니다.

전남 담양·함평·영광·장성 선거구의 더불어민주당 이개호 의원이 81.96%라는 가장 큰 득표율로 당선이 되었네요.

 

이번엔 격전을 벌인 지역구를 살펴보겠습니다. 가장 낮은 득표율 범위인 38.4%와 41.4%를 클릭해보았습니다.

총 다섯 곳(경기도 고양시 갑, 강원도 강릉시, 인천 동구미추홀구 을, 대구 수성구 을, 울산 동구 선거구)이 38.4-41.4%의 범위에 있었습니다. 다섯 선거구 중 3곳이 무소속 후보가 당선되었는데요, 당선 득표율이 낮은 지역일수록 무소속이 많았다고 해석할 수도 있겠습니다.

이 중에서도 가장 낮은 득표율로 당선된 후보는 38.36%의 미래통합당 권명호 의원이네요!

 

 

위 지도에서 지역이나 득표율 구간을 눌려보며 살펴보시거나, 위의 지도 만드는 방법을 통해 직접 지도를 만들어보셔도 좋을 것 같습니다.

여기서 CARTO 평가판을 다운받아 사용해보세요!

 

SPH는 CARTO, Google Maps, SuperMap 등 다양한 케이스에 적용될 수 있는 다채로운 제품군을 보유하고 있으며 고객의 사례에 꼭 맞는 무료 세미나 및 개별 컨설팅을 제공하고 있습니다. 각 케이스에 맞춰 더욱 자세한 이야기를 나누고 싶으시다면 여기에서 문의 주시길 바라며, SPH에서 발행하는 GIS/로케이션 인텔리전스 관련 최신 소식을 받아보고 싶으신 분들은 페이스북 페이지 또는 뉴스레터를 구독해 주시길 바랍니다. 감사합니다.