최우수상 받은 데이터 컨설팅팀, 숨은 뒷이야기!

서울시 빅데이터 캠퍼스 공모전 최우수상 수상!

참여부터 수상까지의 숨은 뒷이야기

 

  • 소개
  • 공모전 주제 선정 
  • 공모전 기획  
  • 데이터 수집 및 ETL 
  • 데이터 분석
  • 데이터 분석 결과 – 어린이 보호 구역으로 지정되어야 하는 3곳!  
  • 잠깐! 토막 소식
  • 아쉬운 점 및 챌린지 
  • 수상 결과에 대한 의견 및 소회

 

  • 소개

서울시 빅데이터 컨퍼런스에서 김도환 전임 연구원의 발표 모습

서울시 빅데이터 컨퍼런스에서 김도환 전임 연구원의 발표 모습

안녕하세요! SPH 데이터 컨설팅팀이 이번 2020 서울시 빅데이터 캠퍼스에서 주최한 빅데이터 공모전에서 최우수상을 수상하였습니다. 이번 공모전은 주제 선정에서부터 수상까지 의미있고 재미있었던 부분들이 많았는데요. 공모전 주제 선정에서부터 수상까지 SPH 데이터 컨설팅팀의 전문적인 분석 과정과 노력등을 공유해 드리려고 합니다.      

 

  • 공모전 주제 선정

최종으로 선정된 주제: 新 어린이 보호구역 제안 

서울시 빅데이터 캠퍼스에서 주최한 공모전은 예전부터 관심이 많이 있던 공모전입니다. 다른 주최사와 달리 사용 가능한 데이터, 즉 빅데이터를 기반으로 분석을 자유롭게 할 수 있다는 점에서 꼭 참여하고 싶었습니다. 주제 선정에 있어서는 꽤나 고심을 많이 했는데, 그 이유는 SPH 데이터 컨설팅팀은 사회 전반에 걸쳐 여러 주제에 관심이 많기 때문입니다. 예를 들어, ‘흡연 구역 설정’, ‘최적의 따릉이 구역’처럼 사회적으로 충분히 도움이되는 분석 결과를 내놓는다면 좋겠다라는 생각을 하고 있었습니다. 또한 양질의 데이터의 유무가 중요하다고 생각하는데요. 분석하고자 하는 주제가 굉장히 좋아도 데이터가 충분하지 않다면 분석 결과의 신뢰도에도 영향을 미치기 때문입니다.

저희는 어린이 교통사고에 관한 뉴스들을 다수 접하면서 ‘어린이 보호구역’에 대해 관심을 갖게 되었고 관련 데이터가 서울시 및 여러 기관에서 제공하는 것을 확인한 뒤에 최종으로 이 주제를 선정하게 되었습니다. 또한 현재 어린이 보호구역은 어떠한 특징과 법안이 있는 지 살펴 보았는데, 생각보다 허점이 있다는 것을 알게 되면서 데이터 분석 및 기획을 시작하게 되었습니다. 

 

  • 공모전 기획 

프로젝트 소개부터 결과까지의 과정 

 

빅데이터를 이용한 분석도 중요하지만 데이터 분석가로서 중요한 역량 중 하나인 상호 커뮤니케이션, 즉 설득력있는 기획을 어떻게 진행할 것인지에 대해 고민을 했습니다. 아무리 분석을 잘해도 사람들이 이해하기 쉽지 않다면 분석한 결과의 가치가 많이 떨어지기 때문에 분석에 ‘스토리’를 담아 PPT에 녹여냈습니다. 

이 주제를 선정한 배경, 사회적 상황, 어린이 보호구역의 현재 법률적 효력 등 사회적 이슈와 現 어린이 보호구역 기준의 변화에 대한 긍정적인 결과 순으로 PPT에 담아내려 노력했습니다. 또한 ‘당위성’이 중요한 부분이라 생각하였습니다. 저희가 특정 데이터를 수집 및 이용한 이유, 데이터 분석에서 머신 러닝 모델을 이용한 이유와 결과물에 대한 심도있는 해석까지 포함한 내용이 들어있습니다 (아래 발표영상 링크 참고). 빅데이터 분석으로 끝나는 게 아닌, 적재적소에 이 분석 결과가 사용되길 바라는 마음을 담아내어 기획을 했습니다.  

   

  • 데이터 수집 및 ETL

어린이 교통사고 현황 [출처: TASS 교통사고 분석 시스템] 

어린이 교통사고 데이터는 TASS에서 지난 6년 간의 데이터를 수집할 수 있었기 때문에, 꽤 양질의 데이터를 모을 수 있었습니다. 또한 서울시 빅데이터에서 제공하는 SKT 유동인구 데이터를 통해 10대 유동인구의 이동 동선을 확인할 수 있었으며 초등학교 및 유치원, 그리고 어린이 보호구역 현황은 서울시 열린 데이터 광장(https://data.seoul.go.kr)에서 수집했습니다. 

‘데이터 분석의 꽃은 전처리’라는 말이 있을 정도로 저희 SPH 데이터 컨설팅팀은 데이터 전처리에 많은 노력을 기울였습니다. 어떠한 데이터를 추출하고 필요하지 않는 데이터는 어떻게 보관할 것이며, 중요한 데이터 중 어느 변수를 원 핫 인코딩 처리 할 것인지, 그리고 결측치 처리 및 Outlier 처리에 관련하여 많은 노력을 들였습니다.  

 

 

  • 데이터 분석

데이터 수집부터 분석 결과까지의 과정을 시각화한 차트

지도 학습 및 비지도 학습 등 여러 분석 방법들이 있는데 저희는 ‘어린이 교통사고 건수’라는 Target 값이 있었기 때문에 지도 학습으로 진행하였습니다. 또한 여러 전문적인 머신러닝 회귀 모델들이 많았는 데, 이번 분석에서는 머신러닝의 모델을 이용했습니다. 모델 중 최적 모델 선택에 있어서는 MAE (Mean Absolute Error)을 기준으로 가장 낮은 오류 값을 가진 모델이 성능이 좋은 모델이라 판단하였습니다. 저희의 분석 결과로는 10개의 모델 중 Random Forest Regressor가 가장 최적의 모델로 선정되었습니다.    

Random Forest Regressor는 앙상블 회귀 모델로써 MAE가 0.08의 가장 낮은 오차값을 가지고 있습니다. 이 모델이 선정한 중요 변수와 Pearson Correlation에서 중요 변수로 제시된 변수들은 ‘10대 유동인구’,’주변 유치원 수’, ‘주변 초등학교 수’입니다.  (아래 사진 참고)

 

머신 러닝 모델이 선택한 중요 변수들 및 필터링 과정

 

저희 공모전 주제는 데이터 분석 관점이 두 가지로 나뉩니다. ‘현황 분석’과 ‘예측 분석’. 현황 분석과 예측 분석으로 나뉜 이유는 1.현재 문제점을 조금 더 정밀히 파악하고 어린이 보호구역 기준의 미흡함에 대해 경각심을 주기 위함2.현재는 알 수 없지만 예측을 통해 머신 러닝 분석 결과에 기반하여 미래 사고 위험도를 알려주기 위함이었습니다. 

현황 분석은 데이터 분석을 통해 알게된 중요 변수들을 통해 필터링을 하여 어린이 보호구역으로 설정되진 않았지만 설정되어야 하는 곳들을 나열했습니다. 중요 변수들은 ‘초등학교 수’, ‘유치원 수’, ‘10대 유동인구 수’였는데 이 값들에 특정 기준치 이상일 경우 현재 어린이 보호구역으로 선정되어야 하는 구역을 나열했습니다. 특정 기준치는 ‘10대 유동인구 수’는 상위 10%값, 유치원 수는 1곳 이상, 초등학교 수는 2곳 이상으로 이 모든 기준치에 부합되는 장소인데 어린이 보호구역으로 선정되지 않았으며 사고 수가 5건 이상인 경우인 장소는 로드맵을 통해 실제 어린이 보호구역으로 어느 장소까지 보호되는지 살펴보았습니다. 

예측 분석은 말 그대로 머신러닝 알고리즘이 예측한 사고 건수입니다. 예를 들어 사고가 1건이 일어난 장소들을 Test Set(216건)으로 선정하여 현황 분석때 이용한 머신러닝 모델을 통해 이 장소들이 향 후, 얼마나 사고 건수가 상승하는 지 살펴봤습니다. 그 중 43곳은 사고 발생 건수가 2건 이상이었으며 이 점을 토대로 어린이 교통 사고가 일어날 확률이 높으니 지정이 반드시 필요하다라는 점을 피력했습니다. 

 

  • 데이터 분석 결과 – 어린이 보호구역으로 지정되어야 하는 3곳!

빅데이터 및 AI를 통해 알아낸 어린이 보호 구역 지정으로 시급한 TOP3 지역

데이터 분석 결과 중 현황 분석을 통한 결과를 보여드리자면, 가장 어린이 보호구역으로 지정되어야 되는 시급한 곳은 1. 석촌 호수로 잠실 새내역 사거리 2. 내발산동 강서로 47길 3. 구로구 개봉동 179-46으로 나타났습니다. 어린이 교통사고가 5건 이상 발생되며 초등학교 및 유치원이 주변에 위치하며 10대 유동인구가 상위 10% 이상 존재하는 장소임에도 불구하고 어린이 보호구역으로 지정되지 않은 곳입니다.

어린이 보호 구역 지정으로 시급한 TOP3 지역의 실제 사진 및 사고 현황

석촌 호수로 잠실 새내역 사거리인 경우는 반경 400m 지점까지 어린이 보호구역이 없었으며, 구로구 개봉동 179-46과 내발산동 강서로 47길 3은 어린이 보호구역이 존재하나 그 주변에서 일어나는 어린이 교통사고가 존재하는 것으로 보입니다.  현재 법령으로는 볼 수 없지만 빅데이터 및 AI를 통해서 찾을 수 있는 ‘사각 지대’입니다.  (자세한 분석 내용은 아래 자료 공유를 참고해주세요)

 

  • 잠깐! 토막 소식 

어린이 보호구역 지정에 대한 염원이 서울시에 닿았는지, 최근 잠실 학원 사거리에 기존에 없던 어린이 보호구역 및 30km 속도 제한 과속 카메라가 설치되었습니다. 저희 데이터 분석 결과였던 어린이 보호 필수 구역 1위로 선정된 곳에 CCTV 설치 및 어린이 보호 구역으로 지정이 되어 이 근방의 어린이 교통사고 예방에 긍정적인 변화가 있을 것으로 예상됩니다! 아래 사진은 SPH 조영만 차장님께서 어린이 보호구역 지정에 대한 기쁜 마음을 담아 공유해주신 사진입니다.

최근 잠실 학원 사거리에 설치된 어린이 보호구역 및 과속 카메라 모습

 

  • 아쉬운 점 및 챌린지 

서울시 빅데이터 캠퍼스에 참여하게 되면서 느낀 점 중 아쉬웠던 부분은 데이터의 불균형입니다. 예를 들면 서울시 빅데이터 캠퍼스이지만 사실상 대한민국을 대표하는 빅데이터 캠퍼스이기 때문에 분석 주제가 서울시로 국한되지 않습니다. 하지만 서울시 외의 데이터들은 잘 갖추어있지 않거나 양질의 데이터가 많지 않다보니 자연스럽게 분석 타겟이 서울 시내로 맞춰지는 게 조금 아쉬운 부분이었습니다. 대한민국 내의 행정에 관련된 데이터들이 한 곳에 잘 정리되어 있다면 소외된 지역에 관한 효율적인 빅데이터 분석이 가능하지 않을 까 싶습니다.   

 

  •   수상 결과에 대한 의견 및 소회

2020년 저희 데이터 컨설팅팀이 사회 이슈에 대해 열심히 분석하고 관심을 갖게 된 것에 대한 ‘선물’이라고 생각합니다. 다른 공모전 팀들도 분명히 필요한 뜻깊은 분석을 하였으며 공모전 참여만으로도 다른 팀들의 분석 인사이트를 보면서 배울 점이 많았습니다. 서울시 빅데이터 캠퍼스 사옥에도 방문해보고 공공 데이터가 어떻게 관리되는 지 배우는 시간이었습니다. 또한 저희 뿐만 아니라 많은 참가자들이 빅데이터 분석에 크게 관심을 갖는 것을 볼 때, 미래에는 정말 빅데이터를 통해 과거보다 더 도움이되는 정책들이 나오지 않을 까 기대됩니다. 저희 SPH 데이터 컨설팅팀은 사회적 이슈 및 여러 공공 사안을 비롯하여 흥미로운 주제들로 인사이트있는 분석을 가지고서 다시 찾아뵙겠습니다. 감사합니다.

  

서울시 빅데이터 캠퍼스 최우수상 시상식 

Blog written by 이소린 전임 연구원

 

김도환 전임 연구원 발표 영상 및 분석 자료 다운로드: 


SPH는 CARTO, Google Maps, SuperMap 등 다양한 케이스에 적용될 수 있는 다채로운 제품군을 보유하고 있으며 고객의 사례에 꼭 맞는 무료 세미나 및 개별 컨설팅을 제공하고 있습니다. 각 케이스에 맞춰 더욱 자세한 이야기를 나누고 싶으시다면 여기에서 문의 주시길 바라며, SPH에서 발행하는 GIS/로케이션 인텔리전스 관련 최신 소식을 받아보고 싶으신 분들은 페이스북 페이지 또는 뉴스레터를 구독해 주시길 바랍니다. 감사합니다.