최우수상 받은 데이터 컨설팅팀, 숨은 뒷이야기!

서울시 빅데이터 캠퍼스 공모전 최우수상 수상!

참여부터 수상까지의 숨은 뒷이야기

 

  • 소개
  • 공모전 주제 선정 
  • 공모전 기획  
  • 데이터 수집 및 ETL 
  • 데이터 분석
  • 데이터 분석 결과 – 어린이 보호 구역으로 지정되어야 하는 3곳!  
  • 잠깐! 토막 소식
  • 아쉬운 점 및 챌린지 
  • 수상 결과에 대한 의견 및 소회

 

  • 소개

서울시 빅데이터 컨퍼런스에서 김도환 전임 연구원의 발표 모습

서울시 빅데이터 컨퍼런스에서 김도환 전임 연구원의 발표 모습

안녕하세요! SPH 데이터 컨설팅팀이 이번 2020 서울시 빅데이터 캠퍼스에서 주최한 빅데이터 공모전에서 최우수상을 수상하였습니다. 이번 공모전은 주제 선정에서부터 수상까지 의미있고 재미있었던 부분들이 많았는데요. 공모전 주제 선정에서부터 수상까지 SPH 데이터 컨설팅팀의 전문적인 분석 과정과 노력등을 공유해 드리려고 합니다.      

 

  • 공모전 주제 선정

최종으로 선정된 주제: 新 어린이 보호구역 제안 

서울시 빅데이터 캠퍼스에서 주최한 공모전은 예전부터 관심이 많이 있던 공모전입니다. 다른 주최사와 달리 사용 가능한 데이터, 즉 빅데이터를 기반으로 분석을 자유롭게 할 수 있다는 점에서 꼭 참여하고 싶었습니다. 주제 선정에 있어서는 꽤나 고심을 많이 했는데, 그 이유는 SPH 데이터 컨설팅팀은 사회 전반에 걸쳐 여러 주제에 관심이 많기 때문입니다. 예를 들어, ‘흡연 구역 설정’, ‘최적의 따릉이 구역’처럼 사회적으로 충분히 도움이되는 분석 결과를 내놓는다면 좋겠다라는 생각을 하고 있었습니다. 또한 양질의 데이터의 유무가 중요하다고 생각하는데요. 분석하고자 하는 주제가 굉장히 좋아도 데이터가 충분하지 않다면 분석 결과의 신뢰도에도 영향을 미치기 때문입니다.

저희는 어린이 교통사고에 관한 뉴스들을 다수 접하면서 ‘어린이 보호구역’에 대해 관심을 갖게 되었고 관련 데이터가 서울시 및 여러 기관에서 제공하는 것을 확인한 뒤에 최종으로 이 주제를 선정하게 되었습니다. 또한 현재 어린이 보호구역은 어떠한 특징과 법안이 있는 지 살펴 보았는데, 생각보다 허점이 있다는 것을 알게 되면서 데이터 분석 및 기획을 시작하게 되었습니다. 

 

  • 공모전 기획 

프로젝트 소개부터 결과까지의 과정 

 

빅데이터를 이용한 분석도 중요하지만 데이터 분석가로서 중요한 역량 중 하나인 상호 커뮤니케이션, 즉 설득력있는 기획을 어떻게 진행할 것인지에 대해 고민을 했습니다. 아무리 분석을 잘해도 사람들이 이해하기 쉽지 않다면 분석한 결과의 가치가 많이 떨어지기 때문에 분석에 ‘스토리’를 담아 PPT에 녹여냈습니다. 

이 주제를 선정한 배경, 사회적 상황, 어린이 보호구역의 현재 법률적 효력 등 사회적 이슈와 現 어린이 보호구역 기준의 변화에 대한 긍정적인 결과 순으로 PPT에 담아내려 노력했습니다. 또한 ‘당위성’이 중요한 부분이라 생각하였습니다. 저희가 특정 데이터를 수집 및 이용한 이유, 데이터 분석에서 머신 러닝 모델을 이용한 이유와 결과물에 대한 심도있는 해석까지 포함한 내용이 들어있습니다 (아래 발표영상 링크 참고). 빅데이터 분석으로 끝나는 게 아닌, 적재적소에 이 분석 결과가 사용되길 바라는 마음을 담아내어 기획을 했습니다.  

   

  • 데이터 수집 및 ETL

어린이 교통사고 현황 [출처: TASS 교통사고 분석 시스템] 

어린이 교통사고 데이터는 TASS에서 지난 6년 간의 데이터를 수집할 수 있었기 때문에, 꽤 양질의 데이터를 모을 수 있었습니다. 또한 서울시 빅데이터에서 제공하는 SKT 유동인구 데이터를 통해 10대 유동인구의 이동 동선을 확인할 수 있었으며 초등학교 및 유치원, 그리고 어린이 보호구역 현황은 서울시 열린 데이터 광장(https://data.seoul.go.kr)에서 수집했습니다. 

‘데이터 분석의 꽃은 전처리’라는 말이 있을 정도로 저희 SPH 데이터 컨설팅팀은 데이터 전처리에 많은 노력을 기울였습니다. 어떠한 데이터를 추출하고 필요하지 않는 데이터는 어떻게 보관할 것이며, 중요한 데이터 중 어느 변수를 원 핫 인코딩 처리 할 것인지, 그리고 결측치 처리 및 Outlier 처리에 관련하여 많은 노력을 들였습니다.  

 

 

  • 데이터 분석

데이터 수집부터 분석 결과까지의 과정을 시각화한 차트

지도 학습 및 비지도 학습 등 여러 분석 방법들이 있는데 저희는 ‘어린이 교통사고 건수’라는 Target 값이 있었기 때문에 지도 학습으로 진행하였습니다. 또한 여러 전문적인 머신러닝 회귀 모델들이 많았는 데, 이번 분석에서는 머신러닝의 모델을 이용했습니다. 모델 중 최적 모델 선택에 있어서는 MAE (Mean Absolute Error)을 기준으로 가장 낮은 오류 값을 가진 모델이 성능이 좋은 모델이라 판단하였습니다. 저희의 분석 결과로는 10개의 모델 중 Random Forest Regressor가 가장 최적의 모델로 선정되었습니다.    

Random Forest Regressor는 앙상블 회귀 모델로써 MAE가 0.08의 가장 낮은 오차값을 가지고 있습니다. 이 모델이 선정한 중요 변수와 Pearson Correlation에서 중요 변수로 제시된 변수들은 ‘10대 유동인구’,’주변 유치원 수’, ‘주변 초등학교 수’입니다.  (아래 사진 참고)

 

머신 러닝 모델이 선택한 중요 변수들 및 필터링 과정

 

저희 공모전 주제는 데이터 분석 관점이 두 가지로 나뉩니다. ‘현황 분석’과 ‘예측 분석’. 현황 분석과 예측 분석으로 나뉜 이유는 1.현재 문제점을 조금 더 정밀히 파악하고 어린이 보호구역 기준의 미흡함에 대해 경각심을 주기 위함2.현재는 알 수 없지만 예측을 통해 머신 러닝 분석 결과에 기반하여 미래 사고 위험도를 알려주기 위함이었습니다. 

현황 분석은 데이터 분석을 통해 알게된 중요 변수들을 통해 필터링을 하여 어린이 보호구역으로 설정되진 않았지만 설정되어야 하는 곳들을 나열했습니다. 중요 변수들은 ‘초등학교 수’, ‘유치원 수’, ‘10대 유동인구 수’였는데 이 값들에 특정 기준치 이상일 경우 현재 어린이 보호구역으로 선정되어야 하는 구역을 나열했습니다. 특정 기준치는 ‘10대 유동인구 수’는 상위 10%값, 유치원 수는 1곳 이상, 초등학교 수는 2곳 이상으로 이 모든 기준치에 부합되는 장소인데 어린이 보호구역으로 선정되지 않았으며 사고 수가 5건 이상인 경우인 장소는 로드맵을 통해 실제 어린이 보호구역으로 어느 장소까지 보호되는지 살펴보았습니다. 

예측 분석은 말 그대로 머신러닝 알고리즘이 예측한 사고 건수입니다. 예를 들어 사고가 1건이 일어난 장소들을 Test Set(216건)으로 선정하여 현황 분석때 이용한 머신러닝 모델을 통해 이 장소들이 향 후, 얼마나 사고 건수가 상승하는 지 살펴봤습니다. 그 중 43곳은 사고 발생 건수가 2건 이상이었으며 이 점을 토대로 어린이 교통 사고가 일어날 확률이 높으니 지정이 반드시 필요하다라는 점을 피력했습니다. 

 

  • 데이터 분석 결과 – 어린이 보호구역으로 지정되어야 하는 3곳!

빅데이터 및 AI를 통해 알아낸 어린이 보호 구역 지정으로 시급한 TOP3 지역

데이터 분석 결과 중 현황 분석을 통한 결과를 보여드리자면, 가장 어린이 보호구역으로 지정되어야 되는 시급한 곳은 1. 석촌 호수로 잠실 새내역 사거리 2. 내발산동 강서로 47길 3. 구로구 개봉동 179-46으로 나타났습니다. 어린이 교통사고가 5건 이상 발생되며 초등학교 및 유치원이 주변에 위치하며 10대 유동인구가 상위 10% 이상 존재하는 장소임에도 불구하고 어린이 보호구역으로 지정되지 않은 곳입니다.

어린이 보호 구역 지정으로 시급한 TOP3 지역의 실제 사진 및 사고 현황

석촌 호수로 잠실 새내역 사거리인 경우는 반경 400m 지점까지 어린이 보호구역이 없었으며, 구로구 개봉동 179-46과 내발산동 강서로 47길 3은 어린이 보호구역이 존재하나 그 주변에서 일어나는 어린이 교통사고가 존재하는 것으로 보입니다.  현재 법령으로는 볼 수 없지만 빅데이터 및 AI를 통해서 찾을 수 있는 ‘사각 지대’입니다.  (자세한 분석 내용은 아래 자료 공유를 참고해주세요)

 

  • 잠깐! 토막 소식 

어린이 보호구역 지정에 대한 염원이 서울시에 닿았는지, 최근 잠실 학원 사거리에 기존에 없던 어린이 보호구역 및 30km 속도 제한 과속 카메라가 설치되었습니다. 저희 데이터 분석 결과였던 어린이 보호 필수 구역 1위로 선정된 곳에 CCTV 설치 및 어린이 보호 구역으로 지정이 되어 이 근방의 어린이 교통사고 예방에 긍정적인 변화가 있을 것으로 예상됩니다! 아래 사진은 SPH 조영만 차장님께서 어린이 보호구역 지정에 대한 기쁜 마음을 담아 공유해주신 사진입니다.

최근 잠실 학원 사거리에 설치된 어린이 보호구역 및 과속 카메라 모습

 

  • 아쉬운 점 및 챌린지 

서울시 빅데이터 캠퍼스에 참여하게 되면서 느낀 점 중 아쉬웠던 부분은 데이터의 불균형입니다. 예를 들면 서울시 빅데이터 캠퍼스이지만 사실상 대한민국을 대표하는 빅데이터 캠퍼스이기 때문에 분석 주제가 서울시로 국한되지 않습니다. 하지만 서울시 외의 데이터들은 잘 갖추어있지 않거나 양질의 데이터가 많지 않다보니 자연스럽게 분석 타겟이 서울 시내로 맞춰지는 게 조금 아쉬운 부분이었습니다. 대한민국 내의 행정에 관련된 데이터들이 한 곳에 잘 정리되어 있다면 소외된 지역에 관한 효율적인 빅데이터 분석이 가능하지 않을 까 싶습니다.   

 

  •   수상 결과에 대한 의견 및 소회

2020년 저희 데이터 컨설팅팀이 사회 이슈에 대해 열심히 분석하고 관심을 갖게 된 것에 대한 ‘선물’이라고 생각합니다. 다른 공모전 팀들도 분명히 필요한 뜻깊은 분석을 하였으며 공모전 참여만으로도 다른 팀들의 분석 인사이트를 보면서 배울 점이 많았습니다. 서울시 빅데이터 캠퍼스 사옥에도 방문해보고 공공 데이터가 어떻게 관리되는 지 배우는 시간이었습니다. 또한 저희 뿐만 아니라 많은 참가자들이 빅데이터 분석에 크게 관심을 갖는 것을 볼 때, 미래에는 정말 빅데이터를 통해 과거보다 더 도움이되는 정책들이 나오지 않을 까 기대됩니다. 저희 SPH 데이터 컨설팅팀은 사회적 이슈 및 여러 공공 사안을 비롯하여 흥미로운 주제들로 인사이트있는 분석을 가지고서 다시 찾아뵙겠습니다. 감사합니다.

  

서울시 빅데이터 캠퍼스 최우수상 시상식 

Blog written by 이소린 전임 연구원

 

김도환 전임 연구원 발표 영상 및 분석 자료 다운로드: 


SPH는 CARTO, Google Maps, SuperMap 등 다양한 케이스에 적용될 수 있는 다채로운 제품군을 보유하고 있으며 고객의 사례에 꼭 맞는 무료 세미나 및 개별 컨설팅을 제공하고 있습니다. 각 케이스에 맞춰 더욱 자세한 이야기를 나누고 싶으시다면 여기에서 문의 주시길 바라며, SPH에서 발행하는 GIS/로케이션 인텔리전스 관련 최신 소식을 받아보고 싶으신 분들은 페이스북 페이지 또는 뉴스레터를 구독해 주시길 바랍니다. 감사합니다.

[Google Maps 이야기] AI와 항공 이미지로 나무 그늘 만들기

“나무를 심기 가장 좋은 때는 20년 전이었고, 두 번째로 좋은 때는 바로 지금이다.”라는 속담을 들어보셨을 겁니다. 지구온난화가 큰 문제가 되고 있는 요즘, 전세계의 정책 입안자와 도시는 더 많은 나무를 심으려 노력하고 있습니다.

콘크리트와 인프라가 열섬을 형성하고 있는 도시에서는 극한 기온이 점점 더 빈번해지고 있습니다. 온도가 너무 높아져서 공기가 나빠지고, 탈수 및 기타 공중 보건 문제가 발생하는 것이죠. 나무 심기는 거리 수준의 온도를 낮추는 동시에 삶의 질을 향상시키는 해결책으로 점점 더 주목받고 있습니다. 그러나 많은 도시들은 나무가 어디에 심어져 있는지, 어디에 나무를 추가로 심으면 좋을지를 계획하기 위한 예산이나 자원을 가지고 있지 않습니다.

Tree Canopy Lab을 통해 구글은 AI와 항공 이미지를 결합하여 도시가 현재 나무 커버리지를 보고 향후 나무 심기 프로젝트를 계획할 수 있도록 지원하고 있습니다. 현재는 로스엔젤레스 지역만 지원하고 있으며, 더욱 넓혀나갈 예정입니다.

Tree Canopy Lab은 LA의 나무들을 볼 수 있습니다. 예를 들어 동네의 몇 퍼센트가 나무가 많은 곳이고, 인구 밀도가 높은 지역은 어디이며, 어떤 지역이 극심한 더위에 취약한지 등과 같은 지역적인 차원에서 나무들을 확인할 수 있습니다.

Tree Canopy Lab은 도시들이 탄소 배출과 오염을 측정 및 계획하고 줄일 수 있는 도구인 Environmental Insights Explorer 내에 있습니다. 이 플랫폼은 수백 개의 지방 정부가 기후 변화에 맞서 싸우는 것을 돕기 위해 만들어졌습니다.

누구나 태블릿이나 노트북으로 Tree Canopy Lab애 접속할 수 있습니다

 

도시 입업 계획을 위해 나무 커버리지 매핑하기

봄, 여름, 가을철 수집한 항공사진과 구글 AI, 구글 어스 엔진의 데이터 분석 기능을 통해 도시의 모든 나무를 정확히 찾아내고 그 밀도를 측정할 수 있습니다. 우리가 이러한 계산에 사용하는 이미지에는 하늘에서 도시를 내려다보는 각도의 컬러 사진도 포함됩니다. 도시의 나무 커버리지에 대해 더 자세한 정보를 얻기 위해, 근적외선 사진이 육안으로 볼 수 없는 색상을 감지하고 다양한 각도에서 이미지를 비교하여 하이트 맵을 만듭니다.

 

 

그런 다음 이미지를 자동으로 스캔하고 나무의 존재를 감지한 다음 “나무 캐노피”라고도 불리는 나무 감지 AI를 활용하여 나무의 밀도를 보여줍니다.

이 도구를 사용하면 비싸고 시간이 많이 드는 나무 연구에 의존할 필요가 없습니다.

정책 입안자부터 이웃에 이르기까지, 누구나 Tree Canopy Lab에서 로스앤젤레스를 탐험하고 통찰력을 얻을 수 있습니다. 예를 들어 나무를 심으면 좋을 주거용 블록을 식별하고 낮은 캐노피 커버리지로 인해 폭염에 취약한 동네를 찾는 데 도움을 줄 수 있습니다.

 

 

Tree Canopy Lab을 통해 우리는 안젤레노스 인구의 50% 이상이 나무 커버리지가 10% 미만인 지역에 살고 있고, 44%가 열 위험이 매우 높은 지역에 살고 있다는 것을 발견했습니다. 또한 로스엔젤레스의 열 위험이 가장 낮은 지역은 나무 커버리지가 가장 높다는 상관관계를 볼 수 있습니다. 이 지역들은 안젤레노스에서 가장 인구 밀도가 낮은 곳이기도 했습니다.

 

 

새로운 환경 인사이트로 도시 연결하기

로스엔젤레스는 지속가능성을 목표로 할 뿐아니라, 기후 변화로 점점 기온이 올라감에 따라 주변 지역을 미화하고 대기질을 향상시키기 위해 도시 임업에 꾸준히 투자해 왔습니다.

2021년까지 9만 그루의 나무를 심고 503평방 마일 이상의 도시 전역에 매년 2만 그루 이상의 나무를 심는다는 목표를 달성하기 위해, Tree Canopy Lab은 도시 전역의 사람들을 돕고 있습니다. 이웃과 공동체 단위에서부터 에릭 가르세티 시장, 그리고 도시 최초의 산림 관리인 레이첼 말라리히에 이르기까지, 모두 도시의 나무들이 어디에 있고 더 많은 녹지가 필요한 곳이 어디인지 확인할 수 있습니다.

“우리가 심는 모든 나무들은 기후 위기의 물결을 막는데 도움을 줄 수 있고, 기온 상승과 폭염으로 가장 큰 타격을 받는 지역사회를  더 건강하고, 더 지속 가능하게 만들 수 있습니다. 구글의 기술은 로스앤젤레스 전역의 가족과 가정에 나무의 힘을 가져다 줄 것입니다. 우리의 공공 공간에 녹지를 더하고, 도시에 아름다움을 불어넣고, 이웃들에게 더 낮은 온도를 가져다 줄 것입니다.”

– 에릭 가르세티 로스앤젤레스 시장

 

더 많은 도시를 위한 더 많은 인사이트

Tree Canopy Lab의 인사이트를 올해에는 수백 개의 더 많은 도시에서 이용할 수 있도록 할 것입니다. 로스엔젤레스와 같은 도시들이 나무 심기와 유지 보수 이니셔티브에 착수하기 위해 하고 있는 야심찬 작업을 계속 지원하겠습니다.

SPH는 CARTO, Google Maps, SuperMap 등 다양한 케이스에 적용될 수 있는 다채로운 제품군을 보유하고 있으며 고객의 사례에 꼭 맞는 무료 세미나 및 개별 컨설팅을 제공하고 있습니다. 각 케이스에 맞춰 더욱 자세한 이야기를 나누고 싶으시다면 여기에서 문의 주시길 바라며, SPH에서 발행하는 GIS/로케이션 인텔리전스 관련 최신 소식을 받아보고 싶으신 분들은 페이스북 페이지 또는 뉴스레터를 구독해 주시길 바랍니다. 감사합니다.

[영사콜센터 프로젝트] 영사조력 ‘무료전화 앱’이나 ‘카카오톡’으로도 가능해진다

앞으로 해외에서 ‘영사콜센터 무료전화’ 앱이나 ‘카카오톡’을 통해 영사 서비스를 받을 수 있게 됐다.

외교부는 23일 영사콜센터 개소 15주년을 맞아 영사콜센터 무료전화 앱과 카카오톡 상담 시범서비스를 개시하고, GPS를 활용한 ‘위치기반’ 영사조력도 실시한다고 밝혔다.

그동안 해외에서는 유선 전화를 통해서만 영사콜센터에 연락할 수 있었는데, 스마트폰에 ‘영사콜센터 무료전화’ 앱을 설치하면 해외에서 영사콜센터로 무료전화를 걸 수 있게 됐다. 무료전화 앱을 이용할 경우 국제전화비 부담 없이 해외에서 영사콜센터로 통화가 가능하다.

아울러 우리 국민이 가장 많이 사용하는 ‘카카오톡’ 서비스를 통해서도 영사상담을 받을 수 있게 됐다. 카카오톡 채팅방에서 ‘영사콜센터’를 검색해 들어가면 영사콜센터 상담관과 채팅을 통해 필요한 도움을 받을 수 있다.

아울러 상담관은 도움이 필요한 재외국민의 위치를 민원인 동의 하에 무료통화앱과 카카오톡의 GPS를 통해 확인하고, 재외공관과 연락해 필요한 영사조력을 제공한다.

영사콜센터 카카오톡 서비스 화면. 카카오톡 채팅방에서 ‘영사콜센터’를 검색한 뒤 들어가면 상담을 받을 수 있다. (외교부 제공)© 뉴스1

 

이태호 외교부 2차관은 이날 오후 영사콜센터 개소 15주년 기념식에 참석해 해외 체류 중인 우리국민의 안전을 지키는 일은 외교부의 가장 중요한 책무 중 하나라며, 해외여행객을 포함한 우리 재외국민의 사건·사고 민원을 재외공관과 함께 최일선에서 담당하고 있는 영사콜센터 역할의 중요성을 강조했다.

이 차관은 또한 “내년 1월 재외국민 보호를 위한 영사조력법 시행을 앞두고 ‘무료통화 앱’과 ‘카카오톡’ 상담을 비롯한 위치 기반 영사조력 등 차세대 서비스 개시를 통해 영사콜센터에 대한 접근성과 편의성이 획기적으로 개선될 것으로 기대한다”며 “향후 재외국민이 보다 안전하게 체류할 수 있도록 관련 시스템을 계속 강화해 나갈 예정”이라고 밝혔다.

반기문 전 UN사무총장도 개소 15주년 축하 영상 메시지를 통해 상담관들의 노고를 치하하면서 영사콜센터가 계속 발전해 재외국민보호에 더 큰 역할을 해줄 것을 당부했다.

외교부에 따르면 지난 2005년 4월에 개소한 영사콜센터는 지금까지 대형 재난과 사건·사고 처리를 비롯해 총 330만 건의 영사 민원 상담을 처리하면서 우리국민의 안전한 해외여행을 위한 동반자 역할을 해왔다. 영사콜센터는 지난해에만 총 1억 8천만 건에 이르는 로밍 해외안전문자를 발송한 것으로 집계됐다.

 

SPH는 이번 영사콜센터 프로젝트에 참여하여 상담관이 영사콜센터 내부에서 사용하는 위치서비스(GIS) 시스템을 구현하였습니다. 위치서비스(GIS) 시스템은 아래와 같은 기능을 제공하고 있습니다.

1) 무료통화앱과 카카오톡의 GPS를 통해 수집된 민원인 위치를 상담관이 확인할 수 있게 구글맵 지도에 표시

2) 민원인에게 특정 위치에 대한 정보를 전달해 줄 수 있는 주소 및 장소 검색, 길찾기 기능 제공

3) 특정 지역에 긴급상황(자연재해, 테러, 대형사고 등) 발생 시 민원인에게 알람 및 문자를 보낼 수 있는 기능을 제공하여 위치 기반 영사조력을 할 수 있도록 지원

[예시화면, 길찾기]

 

SPH는 CARTO, Google Maps, SuperMap 등 다양한 케이스에 적용될 수 있는 다채로운 제품군을 보유하고 있으며 고객의 사례에 꼭 맞는 무료 세미나 및 개별 컨설팅을 제공하고 있습니다. 각 케이스에 맞춰 더욱 자세한 이야기를 나누고 싶으시다면 여기에서 문의 주시길 바라며, SPH에서 발행하는 GIS/로케이션 인텔리전스 관련 최신 소식을 받아보고 싶으신 분들은 페이스북 페이지 또는 뉴스레터를 구독해 주시길 바랍니다. 감사합니다.