[빅데이터 분석]LH Compas 공모전 입선 수상! 리포트를 공개합니다

SPH, LH Compas 공모전 입선 수상!

서울시 도시데이터 분석 리포트 함께 살펴보아요 :)

 

지난 28일, LH Compas 공모전 서울시 과제에서 SPH 데이터컨설팅팀이 입선을 하는 쾌거를 이뤘습니다! 🎉

SPH 데이터컨설팅팀은 서울시 도시데이터 센서(S-DoT) 위치 선정 분석 과제를 수행하였는데요. 

 

먼저, 도시 데이터 센서 (S-DoT)는 무엇일까요? 🤔

S-DoT는 Seoul  – Data of Things를 의미하는데 영어로만 본다면 잘 와닿지 않으실 수 있습니다. S-DoT는 서울 도시 전역, 적재적소에 도시의 환경 데이터를 모으기 위한 센서로, 아래 사진을 참고하시면 이해에 도움이 되실 것 같습니다 :)

S-DoT 센서 외관

위의 센서를 전기가 공급되는 지자체 건물 및 관공서, 전봇대, CCTV가 있는 전역에 설치하여 도시의 소음, 풍속, 미세먼지 등 생활에 밀접하게 연관된 데이터를 모을 수 있습니다. 

모든 센서가 동일한 데이터만을 모으는 것은 아닙니다! 각 센서마다 추가적인 데이터 (오존, 황화수소 등)를 모을 수 있는데요. 센서를 설치하고 데이터를 수집하는 모든 인력과 비용을 고려한다면 어디에 설치해야 좋을지에 대한 분석은 반드시 선행되어야 합니다. 

 

 

적재적소 설치를 위한 데이터는? 

그렇다면 어떠한 데이터를 가지고 분석하여 최종적으로 이 장소가 이와 같은 센서를 설치하면 좋다는 결론을 얻을 수 있을까요? 

LH Compas에서는 공모전에 관한 주제뿐만 아니라 풍부한 데이터를 제공하고 있습니다. 기 측정기 데이터 자료부터 기후 현황 데이터까지 서울시에 관련된 환경 데이터를 융합시켜 분석할 수 있습니다. 

LH Compas 데이터 목록 

 

S-DoT에 대한 설명과 이용될 데이터를 간략히 소개해드렸는데요.

이제 이 과제를 어떻게 SPH 데이터컨설팅팀은 풀어나갔는지..! 함께 살펴보겠습니다. 👏

 

과제 수행을 위한 프로세스 3단계 요약! 

분석 과제의 수행 단계는 분석 기획부터 분석, 그리고 결과와 기대 효과까지 크게 세 가지로 나누어질 수 있습니다.

자세한 사항은  리포트에서 확인하실 수 있습니다.

 

 

과제 분석 의의와 분석 기조 

서론에서는 분석 과제에 대한 사회적인 의의와 설치 필요성에 관해 설명드렸습니다. 

서울시 지자체에서 미세먼지와 환경 관련 데이터에 대해 꾸준히 연구하고 프로젝트를 진행해 왔는지에 대한 리서치를 포함하여 분석에 대한 명확한 청사진을 제시하였는데요.

저희는 과거 분석 방법과 달리 이번 과제에서는 머신러닝과 같은 예측 분석이 아닌 ‘공간분석과 통계분석’을 진행하였습니다. 

 

그 이유는 다소 적은 양의 예측 가능한 데이터, 다소 많은 양의 관련 데이터 등이 있었습니다. 

좀 더 쉽게 설명드리자면, 머신러닝과 같은 예측 분석을 도입하기 위해서는 학습할 수 있는 데이터의 양이 필수 불가결한 사항인데요.

 

이번 예측에 도입할 수 있는 데이터는 과거 ‘S-DoT’ 데이터를 가지고 예측해야 하는데, 예측 분석을 할 만큼의 양이라 판단하기 어려웠습니다. 또한 과거 데이터가 많더라도 현실적으로 센서가 없는 지역에서는 예측에 쓰여야 하는 관련 데이터가 없는 것도 문제점이었습니다. 

 

그래서 저희는 피어슨 상관계수(Pearson Correlation Coefficient) 기법을 이용하여  ‘중요 변수’라고 여겨지는 변수를 추출하여 해당 반경을 포함한 데이터들을 클러스터링을 하는 공간 분석을 도입하는 방식을 선정하였습니다.  

 

 

본격적인 데이터 분석 시작

이제 분석에 대한 의의와 계획, 그리고 분석 방법론의 기틀이 마련되었다면 분석은 어떻게 진행되었을까요? 

 

이번 S-DoT의 전체적인 데이터셋과 분석 방법을 담았는데요. 데이터를 어떻게 가공하고 최종적으로 장소 선정을 위한 작업을 진행하였는지에 대한 플로우 차트입니다.

 

데이터 설명 및 전처리에 대한 자세한 내용은 리포트에서 무료로 확인하실 수 있습니다.

데이터 분석 과정 및 개요

  • 상관관계 분석 과정

기존 S-DoT 센서의 미세먼지 농도가 높은 데이터를 기반하여 각 추가 센서에서 중요 변수 추출을 위한 상관관계를 분석하였습니다. 코헨의 효과 크기(Effect Size) 기준에 따라 .26로 설정하여 상관계수의 절대값이 .26 이상인 경우 해당 센서의 중요 변수로 고려하였습니다. 상관 계수 가설 검정에 대한 자세한 내용은 리포트에서 확인하실 수 있습니다.

센서별 중요 변수

 

결론적으로, 아래와 같은 과정으로 중요 변수 기준 데이터셋을 구성합니다

중요 변수 기준 데이터셋

  • 버퍼 설정 및 공간 분석 (Spatial Analysis)

위에서 시도한 상관 관계 분석 과정을 통해 도출된 변수를 기준으로 버퍼를 설정하고 버퍼에 클러스터링되는 분석을 하였는데요.

 리포트내 공간 분석 프로세스 일부

개인적으로 상관 관계 분석만큼 이번 공간 분석의 꽃이라고 생각하는 부분입니다.  해당 분석 프로세스는  리포트에서 자세히 확인 가능합니다. 

 

  • 상관관계 분석 결과

이러한 분석 과정을 거쳐 미세먼지와 추가 센서 설치 지역 최종 산출된 결과 요약본은 아래와 같습니다.

상관관계 분석 결과

 

상세 결론 및 기대 효과 

  • 최종 선정 지역

센서별로 선정된 장소와 그 사유를 구체적으로 살펴보겠습니다. (제한된 데이터로 인해 설치 장소에 관한 정확도는 다소 상이할 수 있습니다) 

센서

설치장소

사유

소음센서 서초구 반포4동 87-9 지점 미세먼지 농도량 및 소음 센서 상관관계가 높은 요인인 습도, 온도 등의 기준에 의해 선정
동작구 사당동 사당로17가길 지점 주택 및 상가 시설 밀집 지역 선정, 학교 및 주변 어린이 주거 지역이 고려됨
풍향 풍속 센서 중랑구 신내동 397 지점 봉화산 근처 지점으로, 풍향 풍속 센서 중요 변수인 최저 기온 및 교통 혼잡도가 고려됨
동작구 흑성동 서달로15길 올림픽 대로 근처 지점으로, 교통 혼잡도 및 풍향 변수 데이터 수집이 원활한 지역
오존 센서 용산구 보광동 3-112 지점 강변북로 근처로 풍향 및 최저 기온 등의 중요 변수로 고려되는 오존 센서 측량에 좋은 지점으로 고려됨
중구 신당2동 432-2705 지점 남산이 서쪽에 위치하며 고층 빌딩이 적은 지역으로 오존 센서 관련 데이터 수집이 적합한 지역
탄소 및 질소 산화물

이산화황 센서

성북구 정릉2동 508-105 지점 순간 최대 풍속이 평균 이상인 지점이 중요변수로 고려되기 때문에 바람길이 열려있어 데이터 수집이 원활한 지점으로 고려됨, 노인 전문 병원 등 취약 계층 주거지역을 고려하여 선정
강북구 수유1동 58-88 지점 남산과 오동 근린 공원 사이에 위치하여 최대 풍속 관련 데이터 수집이 원활한 지점으로 고려됨, 유소년 거주 지역 우선 선정
암모니아 황화수소가스 센서 강서구 가양1동 양천로53길 근린 공원 및 한강이 가까운 지점에 위치하여 해당 센서 관련 중요 변수 수집에 용이, 취약 계층인 초등학생 다수 거주
강서구 공항동 4-125지점 김포국제공항이 위치하여 저층 빌딩으로 구성되어 있어 센서 수집에 중요한 지점으로 고려됨, 초등학교 및 유치원 시설이 다수 밀집

 

  • 활용 방안

이번 프로젝트를 통해 프로젝트 분석 기반 미세먼지 센서 설치에 따른 데이터 활용 방안을 제시합니다.

  1. 서울시 전기버스 우선 투입 지역을 위한 데이터 활용
  2. 서울시 공기 정화 벤치 우선 투입지역 선정
  3. 미세먼지 계절관리제와 같이 ‘지역관리제’를 시행하여 지역별 미세먼지 저감정책의 데이터로 활용
  4. 서울시 ‘에어로드’구역을 선정하여 취약계층 주거 지역 우선 공기 청정 사업 데이터로 활용

이 외에도 다양한 방법으로 활용되기를 기대합니다.

 

이번 S-DoT 리포트는 숨서울 프로젝트와 발맞춘 분석 프로젝트로써 취약 계층을 위한 우선 설치 지역 탐색과 사각지대 개선이라는 큰 의의를 가졌습니다. 또한, 서울시의 미세먼지 설치 사업에서 측정기를 가장 필수적으로 설치해야 하는 장소를 찾아 불필요한 비용 낭비를 줄일 수 있어 경제적인 측면에서도 효과적일 것으로 기대됩니다. 나아가, 막연한 미세먼지 측정기 설치에서 벗어나 데이터에 따른 수치화를 통해 미세먼지 측정기 장소 지정의 타당성과 필요성을 제고하였습니다. 

 

이상으로 SPH 데이터분석팀의 이번 공모전 과제에 대한 간략한 설명을 마칩니다. 리포트를 자세히 보고 싶으신 분은 클릭해주시기 바랍니다.  더 맑은 세상을 위해 노력하는 SPH가 되겠습니다 :)

 

 

SPH는 Google Maps, SuperMap, Maxar Technologies 등 다양한 케이스에 존재하는 다양한 제품군을 보유하고있는 고객의 사례에 꼭 맞는  무료 세미나 및 인적 컨설팅을 제공하고 있습니다. 각 케이스에 더욱 자세한 이야기를 나누고 싶으시다면,  여기에서 문의 주시길 바라며, SPH에서 발행하는  GIS / 로케이션인텔리전스 관련 최신 소식 을 받아보고 싶으신 분들은  페이스북 페이지  또는  뉴스레터를 구독 해 주시길 바랍니다. 감사합니다.