인공지능이 추천하는 국내 관광 코스는?

인공지능이 추천하는 국내 관광 코스는?

(feat. 부산광역시, 여수시)

 

What? – 인기 관광 코스 찾기

<코로나19 이후 다시 주목받게 된 국내 여행>

 

 

  안녕하세요! SPH 데이터 컨설팅팀입니다. 무더운 여름, 더위를 피하기 위한 여행 계획은 다들 세우셨나요? 🏝
코로나19 이후 해외여행이 어려워지면서 국내 여행이 주목받고 있습니다. 해외여행은 코로나19 팬데믹 사태 이후에 관광객 수가 1990년 수준으로 급감하였다고 합니다. 한국만 보더라도 해외여행을 대체할 여행지로 제주도, 부산, 여수 등이 손꼽히고 있는데요!
여행이 핫 키워드인 요즘, SPH 데이터 컨설팅팀은 국내 관광코스를 추천드릴 수 있게 인공지능을 이용하여 야심 차게 분석해보았습니다. 

 

 힘들고 어려운 관광 코스가 아닌 사람들이 상식적으로 생각하는 여행 스케줄을 실제 빅데이터를 기반으로 관광 코스를 검증하면서, 관광 정책을 실제 기획하고 실행하는 정책 결정자분들께 인사이트를 제공할 수 있어 큰 의미가 있는 데이터 분석이었는데요. 한 번 같이 확인해보실까요?

 

“ 전주 관광할때 같이 방문할 수 있는 1타 3피 관광. 할 수 있을까?”

 분석에 앞서 저희가 원하는 최종 분석 목표에 대해 말씀드리자면 빅데이터를 통해 주요 관광 도시와 가장 효율적으로 연계될 수 있는 여타 도시를 찾아 관광 거점을 만들어내는 것입니다. 우리의 소중한 휴가를 부산뿐만 아니라 다른 지역까지 여행할 수 있다면? 뜻깊은 여행이 될 것 같습니다.

 

How? – 1/2 Data

 

 

 그렇다면 어떤 데이터를 이용해서 관광 코스를 선정해볼 수 있을까요? 맛집은 따로 광고하지 않아도 문지방 닳도록 손님이 끊이질 않습니다. 입소문으로 맛집이 되는 경우가 큰대요! 하지만 저희는 ‘소문’에 의지하지 않고 데이터에 기반하여 관광 코스를 선정해보려고 합니다. 데이터는 SK텔레콤 통신 데이터를 기반으로 분석해보려고 합니다.

 

<부산 광역시가 포함된 동선 데이터>

 

 통신 데이터에는 동선 데이터가 있습니다. 그리고 50만 개가 넘는 동선 데이터는 여행객의 행동 패턴이라고 볼 수 있습니다. 여행객이 남긴 발자취가 담긴 데이터인데요. 이 동선 데이터에는 성별, 나이 대, 그 동선을 이용한 인구 수 등이 포함되어 있습니다. SK 텔레콤의 전문 기술을 통해 추계된 인구 통계 데이터로써 SK 텔레콤 가입자 뿐만 아니라 전체 인구를 추산한 데이터를 기반으로 분석을 하여 데이터에 대한 정확도가 한층 더 높은 것을 알 수 있습니다. 

 

<통신 빅데이터 산출 기준>

 

 전체 동선 데이터 중 분석을 위해 선별한 데이터는 남부권입니다. 무더운 더위를 피하기 위해 경상도 · 전라도 여행을 고려하고 계시다면, 이번 분석 결과에 더 집중하시면 좋은 정보 얻어 가실 수 있을 것 같습니다! 또한 관광객이 아닌 거주민이 포함된다면 분석 결과에 오류가 있을 수 있으니, 2019년 사계절 비성수기와 통근, 통학 및 출퇴근 이동과 같은 일정한 패턴을 보이는 데이터는 제외했습니다. 

How? – 2/2 Analysis

 분석에는 딥러닝, 머신러닝 알고리즘을 이용했습니다. 인공지능이 추천한 관광 코스를 알기 위해 텍스트로 되어있는 동선 데이터를 네트워크 그래프로 변환하였는데요. 여기서 잠깐! 시퀀스 모델인 RNN이나 LSTM을 이용하지 않은 이유에 대해 여쭤보실 수 있습니다. 

“동선 ≠ 문장”

동선 데이터의 구조를 보자면 부산 → 완도라는 비정형 데이터로 이루어져 있습니다. 또한 부산 → 완도 → 부산과 같이 부산이 두 번 이상 포함되는 동선도 있으며 부산 → 완도처럼 전혀 다른 방향성을 지닌 데이터도 있습니다. 즉, 문장처럼 규칙이 있는 데이터가 아닌데요. 이와 같은 구조에서 RNN이나 LSTM을 이용한다면 부산 → 완도가 완도 → 부산보다 더 많이 언급될 경우 관광 코스 예측 시 부산 → 완도가 선정될 가능성이 큽니다. 하지만 저흰 동선 자체를 하나의 변수 데이터로 보기 위함이기에 네트워크 그래프로 표현하였습니다.

 

“수요가 있고 연계성이 좋은 동선 = 인기 관광 코스” 

 

관광 코스 선정에 있어서 주요 키워드인 PPI 알고리즘을 설명드리겠습니다. 위에 설명드린 동선의 네트워크 그래프 화가 끝났다면 가장 큰 두 축은 1. 동선 유사도(연계성)과 2. 군집분석(수요가 있는 동선 찾기)입니다. 지역에서 다른 지역으로 이동하기가 쉽고 많은 관광객들이 찾는 동선이라는 두 마리 토끼를 모두 잡는 지수를 산출해 하기 때문에 아래와 같은 과정을 갖게 되었습니다. 자칫 복잡해 보이지만 아래에서 쉽게 설명드리겠습니다.

 

<PPI 산출 알고리즘>

 

 

01. Graph Edit Distance (동선 유사도)

A동선과 B동선의 차이는?

 

 

 

 

 동선 유사도 (Graph Edit Distance)라는 단어가 생소하게 들리실 수 있을 것 같습니다. 쉽게 접근하자면, 부산 → 완도 동선과 하동 → 부산 동선의 차이점을 컴퓨터는 과연 어떻게 찾아낼까요? 네트워크 그래프로 표현된 동선의 차이점은 동선 유사도를 통해 산술적으로 나타낼 수 있는데요. 노드와 엣지로 표현된 동선들이 다른 동선으로 변환되는 데의 cost를 표현하기 때문에, 동선 유사도 수치가 높을수록 A동 선과 B 동선은 유사성이 떨어진다고 볼 수 있습니다. 그렇게 각 동선과 다른 50만 개의 동선들과의 동선 유사도를 계산하여 평균값을 내어 ‘이 동선은 다른 동선들과의 연계성이 높고/낮다’를 수치로 표현할 수 있습니다. 하지만 동선이 연계성이 가장 높다고 해서 무작정 인기 동선으로 선정하기에는 불충분합니다. 인기 동선은 ‘수요’가 있어야 인기 동선입니다. 그래서 소개드릴 두 번째 과정을 통해 수요가 높은 동선을 선정하였습니다.

 

02. 임베딩 (Embedding), 그리고 군집 분석

가장 인기있는 동선 그룹은?

 

 마지막 과정은 임베딩, 군집분석, 그리고 인기 동선 그룹 선정입니다.

 

<그래프 임베딩 시각화 도움 자료>

임베딩이란 무엇일까요? 임베딩은 컴퓨터가 이해할 수 있는 숫자 형태인 vector로 표현하는 과정이라고 생각하시면 쉽습니다. 부산 → 완도라는 동선을 컴퓨터는 이해하기 어려우니 벡터 형식으로 표현하여 분석할 수 있게 만드는 중요한 과정입니다. 50만 개 이상의 동선 네트워크 임베딩에는 Graph2vec이라는 모델을 이용했는데요. 이 모델을 이용하여 그래프의 클러스트링에 큰 효과를 보았다는 논문을 기반으로 Graph2vec 모델을 활용하였습니다. 

 

<임베딩 후 군집분석을 통해 3 그룹으로 나뉜 동선들>

 

 그렇게 그룹화가 된 동선들 중에서 평균 관광객 수가 가장 높은 그룹을 선정합니다. 선정된 그룹과 저희가 앞서 계산한 동선 유사도를 조합하여 가장 인기 있는 동선을 찾아낼 수 있습니다.
(자세한 PPI 산출식은 블로그 아래 링크로 신청하시면 발표 자료 및 논문에서 확인 가능합니다.)

<순천시 PPI 지수 결과 예시>

 

연계성이 높은 동선 (동선 유사도)와 수요가 높은 동선 (인기 동선 선정) 과정에 거쳐 산출한 PPI는 5점 만점으로 나타낼 수 있습니다. 5점일수록 순천과 연계할 수 있는 관광코스로 제격이라 볼 수 있는데요! 위의 표에서 순천시를 본다면, 순천시는 여수시, 광양, 고흥이 가장 연계성이 좋은 관광 코스로 나타났습니다. 1점대를 얻은 진주, 하동은 여수, 광양에 비해 관광 코스로 연계하기 다소 어려움이 있을 것이라는 것을 수치를 통해 이해할 수 있습니다. 

 

Where?

 

그렇다면 일련의 과정을 거쳐 나온 결과를 자세히 소개해 드리려고 합니다. 보여드릴 장소는 부산광역시와 여수시입니다! 

먼저 ‘여름 바다’하면 떠오르는 대표 관광지는 역시, 부산이지 않을까요?  😎

 

부산의 경우, 거제, 김해, 울산을 아우르는 관광 코스가 가장 인기 있는 코스로 나타났습니다.  특히 부산에서 통영, 그리고 거제시로 관광하는 코스와 부산에서 김해시로 가는 코스가 가장 인기 있었는데요! 여름 하면 부산 갈매기가 떠오르는 것처럼, 분석 결과에서도 여름에 가장 수요가 높은 것으로 나타났네요. 또한 10대, 30대 남성 관광객분들이라면 이 코스로 여행해보시면 좋을 것 같습니다. 

주요 관광 코스 외에도 두 번째로 인기 있는 지역들은 양산, 창원, 통영, 밀양 순으로 나타났습니다. 또한 동선 데이터가 방향성이 있기 때문에 네트워크 그래프에서도 부산에서 출발하는 동선이 인기 있는 동선들로 확인되네요. 부산에서 김해, 울산 등 다른 지역 탐방에는 대중교통 및 여러 환경에 의해 부산에서 출발하는 수요가 높은 것으로 보입니다.

 

 

여수 밤바다. 사실 밤바다 중에 가장 유명해진 밤바다는 여수 밤바다가 아닐까 싶습니다.
하지만 여수 밤바다와 함께 다른 유명 지역도 같이 관광한다면 그게 바로 일석이조, 일석삼조가 되지 않을까 싶은데요!

여수시의 경우 광주에서 여수시를 거쳐 순천시를 가는 코스와 여수시에서 순천시를 가는 코스가 가장 인기 있는 코스로 나타났습니다.  3지역과 2지역 모두 여수시는 순천시와 떼어놓을 수 없는 관광 코스라는 점에서 의미가 있는 것 같네요. 여수시에 들렸다가 순천 갈대밭 축제 (순천만 갈대축제)를 보러 가시는 관광객이 많을 거라 예측됩니다. 

여수 바다와 순천의 갈대밭이 인기 코스로 보이듯, 여수는 봄과 가을에 가장 인기 있는 관광지로 나타났습니다. 또한 남성, 여성, 20대 , 50대 등 부산과는 달리 다양한 성별, 연령대를 아우를 수 있는 관광 코스로 보여집니다.

 

 

 여수와 연계될 수 있는 관광 코스로 순천뿐만 아니라 남해, 광양, 고흥 등 인기 코스로 보이는 곳들이 다수 존재하여 여수시를 방문하실 때 위에 나열된 지역들도 고려해본다면 최고의 여행이 될 것 같습니다. 또한 여수시의 경우 여수에서 출발하는 코스가 인기가 많은 것으로 나타나, 여수시를 방문하고 남해 광양 등 주변 도시를 탐방하시는 것이 연계성이 가장 좋을 것으로 보입니다. 

 

이렇게 통신 데이터인 동선 데이터를 기반하여 인공지능이 선정한 가장 인기있는 관광 코스를 살펴봤습니다. 관광객의 발자취 데이터를 통해 인공지능을 활용한 찐 관광 코스를 알아보는 시간! 어떠셨나요?

이번 여행 계획을 세우고 계시는 분들에게 좋은 정보가 되었으면 하네요~

 

이상 SPH 데이터 컨설팅 팀이었습니다! 

 

 


 

연구 자료 및 발표 자료가 궁금하시다면?

데이터 컨설팅팀 발표 자료 및 논문 자료 다운로드:  인공지능 기반 관광코스 추천 

 

SPH는 Google Maps, SuperMap, Maxar Technologies 등 다양한 케이스에 존재하는 다양한 제품군을 보유하고있는 고객의 사례에 꼭 맞는  무료 세미나 및 인적 컨설팅을 제공하고 있습니다. 각 케이스에 더욱 자세한 이야기를 나누고 싶으시다면,  여기 에서 문의 주시길 바라며, SPH에서 발행하는  GIS / 로케이션인텔리전스 관련 최신 소식 을 받아보고 싶으신 분들은  페이스북 페이지  또는  뉴스레터 를 구독 해 주시길 바랍니다. 감사합니다.

데이터 업계 고수와의 인터뷰 04 – 빅스데이터 강승일 이사님

데이터 시각적 분석 전문가

강승일 이사님

 

 데이터 업계의 고수를 찾아 직접 인터뷰하는 컨텐츠! 그 네 번째 고수는 누구일지 기대되는데요! 인터뷰 네 번째 손님은 빅스데이터 회사의 강승일 이사님입니다. 강승일 이사님은 ‘태블로 굿모닝 굿애프터눈’과 ‘데이터 시각적 분석 태블로로 끝내기’ 저자로 활발히 활동하고 계시면서 유튜브 채널 Monday Data Visualization를 운영하고 계십니다. 특히 빅스데이터는 시각화 전문 툴인 Tableau의 파트너사가 되어, 2021년 5월  Tableau 파트너 최고 등급인 Premier Partner가 되었습니다. 2021년부터 Tableau의 최고 파트너사가 된 빅스데이터에서 이사직을 맡고 있는 데이터 시각적 분석 전문가 강승일 이사님과의 인터뷰는 어떻게 진행되었을지 살펴볼까요? 

 

Q. 안녕하세요 이사님! 인터뷰에 응해주셔서 감사합니다. 

안녕하세요! 만나서 반갑습니다.

 

Q. Tableau 시각화 전문가 및 교육자로 활발하게 활동하고 계시는데요! 굴지의 대기업의 프로덕트 매니저에서 데이터 시각화 전문가로 이직하시게된 이유가 있나요?

대기업에서 프로덕트 매니저로 일을 할 때, 서비스 런칭하고서 사용성, 사용자의 트래픽을 확인하기 위해 찾다 보니 Tableau라는 시각화 툴이 눈에 띄었습니다. IT 회사에 있었지만 데이터 관련한 것을 전공하지도 않았고 주로 서비스 기획 및 검색 기획, 커뮤니티 기획과 같은 업무를 했었습니다. 그런 배경에서도 Tableau는 비전공자들도 쉽게 접근할 수 있겠다 싶어서 2016년 Tableau 커뮤니티에 가입하면서 본격적으로 사용하기 시작했습니다.

 

Q. 그럼 Tableau 커뮤니티를 직접적으로 운영하셨던 건가요?

아뇨. 처음에는 멤버로 참여하게 되었구요. 현재는 빅스데이터의 태블로 커뮤니티인 TWBX를 Slack에서 운영하고 있습니다.

 

Q. Tableau 관련 자격증을 많이 보유하고 계시더라구요.

<빅스데이터 사내 인터뷰 모습>

네 (웃음). 2017년 4월에 처음으로 자격증을 땄구요. 데이터 시각화하는 실무부분도 있지만 데이터 커넥션과 같은 이론적인 부분도 공부하면서 좋았습니다. Tableau Desktop Specialist 자격증은 한국에서는 거의 최초로 땄습니다. 

 

Q. 그럼 수많은 시각화 툴 중에 Tableau를 사용하시게 된 계기가 있나요? 

 초반에 말씀드린 것처럼, 직관적이고 쉽다는 게 가장 장점인 것 같아요. 숫자 형태인 측정값을 더블 클릭을 하면 차트 형태로 만들어지고, 세부 형태는 차원이라는 단계에서 조정할 수 있는 것들이 논리적으로 잘 되어있어요. 단순하게 화면으로 예쁘게 표현되는게 아니라, 유저입장에서 어떻게 쓰면 좋을지가 Tableau에 철학적으로 잘 담겨져 있는 것 같아요. 기본적으로 값을 올려주면 막대 차트가 자동으로 나오고, 날짜와 같은 시간 데이터를 나오면 Line 차트로 변경되고.. 이러한 로직이 잘 되어있기때문에 비전공자들도 쉽게 표현할 수 있다는 게 큰 장점인 것 같습니다. 

 

Q. 단순히 데이터 시각화 전문가뿐만 아니라, Tableau 교육자로서도 활발하게 활동하시는데요!

제 성향이, 사람들에게 내가 가진 지식을 공유해주는 것에 행복을 느끼는 것 같아요 (웃음). 또한 책임감있게 하다보니 관련 팀을 만들게 되었습니다. 초반에 Tableau를 검색해서 이용할 때, 그때 당시에는 한국어로 된 책도 전무하고 검색을 하면 거의 영어로 되어있어서 배우기 어려웠습니다. 데이터 관련 비전공자이면서 맨땅에 헤딩을 하다보니 제가 좀 아쉬웠던 부분이라든지 실수했던 부분에서도 노하우가 쌓였고 그런 부분들을 알려드리고 싶었습니다. 

 

Q. 직장인뿐만 아니라 학생들에게도 강의를 하신다고..

네, 요즘 국내 기업에서 Tableau를 이용하는 고객사는 2000여개가 넘습니다. 4~5년전만 하더라도 Tableau를 활용하는 기업이 별로 없었지만, 현재는 많은 회사에서 활용하는 편이라 실무적으로도 취업할 때 경쟁력을 높일 수 있구요. 그런 것들을 교수님들도 잘 알고 계시기때문에 Tableau 강의를 자주 요청하시기도 합니다. 

 

Q. Tech42 리플루언서 및 블로그 등에서 데이터 시각화하신 것들을 공유해주시는데요. 가장 기억에 남는 데이터 시각화가 있으시다면?

아무래도 초반에 성과를 이루었다고 볼 수 있는 작품이었던 ‘초등학교 학생수, 교사수 현황’이 기억에 남아요.  2017년 4월쯤 Tableau 데이터 시각화 경연대회에서, 그때 초등학교 학생수 및 교사수를 이용하여 지도 및 시계열로 표현한 분석 결과가 상을 받았어요. 시각화 뿐만 아니라 분석에서 큰 인사이트를 얻고 발표를 한게 중요했던 것 같아요. 예를들면, 세종시의 경우 계속 학급당 학생수가 상승하고 있고 반대로 대전광역시는 떨어지고 있는 부분들을 소개해드렸어요. 이러한 분석 인사이트를 공유한 부분들이 인정을 받다보니까 데이터 시각적 분석 경력을 전문적으로 쌓아야겠다고 결심을 하게된 것 같습니다. 

<Tableau Viz 대회에서 최우수상을 수상한 전국 초등학교 학생수 & 교사수 현황 대쉬보드>

 

Q.  최근에 하신 것 중에서는 소개해주시고 싶은 데이터 시각화 작품이 있을까요?

 최근에 선보였던 나이키 회사에 관련된 데이터 분석이 있는데요. 나이키는 Digital Transformation을 도입하면서 외부 유통업체의 비중을 줄이고 직접 판매의 비중을 높이고 있습니다. 이유는 외부 유통업체를 통한 판매인 경우에는 고객이 어느 단계에서 진입 후 이탈하는지, 또는 고객이 자사의 제품 구매 이력 관리가 제대로 되지 않았기 때문입니다. 따라서 고객 데이터를 직접 확보하기 위해서 자사 홈페이지 및 앱에서 제품을 직접 판매하는 비중을 늘리기로 합니다. 제가 선보인 시각화는 2016년부터 2020년 사이에 나이키의 직접 판매와 외부 유통 업체 판매 간 이익 비율을 비교했습니다. 아래 시각화 자료를 보시면, 파이차트에 있는 검은색 부분은 직접 판매하여 얻은 이익 부분이고 흰색 부분은 채널을 두어서 판매한 이익에 대한 부분입니다. 보시는 것처럼 2016년부터 점점 직접 판매하여 얻는 이익이 많아지고 있는 것을 볼 수 있습니다. 

<나이키 직접 판매 및 간접 판매 이익 관련 데이터 시각화>

 

Q. 흥미로운 주제네요. 파이차트와 크기로 표현해서 직관적으로 이해하기 쉬운 것 같아요.

 뒷 배경에 나이키 로고를 넣은 이유는 아이스하키 채를 형상화했습니다. 파이차트는 공처럼 보이게 해서 점점 커지고 있다는 것을 직관적으로 보일 수 있게끔 했습니다. 그리고 데이터 시각화는 단순 명료하게 독자들에게 보여지는 것이 중요하기때문에, 색을 많이 쓰지 않고 검은색과 흰색으로 직접 판매와 간접 판매를 대조적으로 표현하였습니다.  

 

Q. 데이터 시각화를 할 때, 주의해야할 점이 있을까요? 

 데이터 시각화는 단순 명료하지 않으면 복잡하고 이해하기 어렵게 변질될 수 있습니다. 많은 걸 넣다보면 결국엔 독자가 이해하기 어려운 결과물이 되구요. 초반엔 여러 색을 쓰고 표현하는 것이 최선이라 생각할 수 있지만 너무 과하지 않게, 심플하게 보여주는 것이 핵심인 것 같습니다. 

 

Q. 데이터 시각화 작품을 많이 게재하셨는데, 시각화 전문가로서 최종 목표가 있을까요?

 누구나 쉽게 접근해서 데이터를 가지고 표현할 수 있는 플랫폼을 만들고 싶습니다. 비전공자도 데이터를 올리고 다운로드받아서 데이터를 시각화하여 인사이트를 얻을 수 있는 전체적인 플로우가 있는 플랫폼이 있는 좋을 것 같아요. 비즈니스적인 측면이 아니더라도, 누구나 데이터를 이해하기 쉽고 시각화하기 쉬운 곳이 있다면 비전공자도 커리어를 쌓을 수 있어서 이점이 있을 것 같구요. 

 

Q. 직접 쓰셨던 ‘데이터 시각적 분석 태블로로 끝내기’라는 책에서 Data Literacy가 중요하다고 언급하셨는데요!

<데이터 시각적 분석 태블로로 끝내기(2021)>

 태블로를 전사적으로 도입하면서 구성원들이 Data Literacy 관점에서 향상되는 것을 많이 경험하게 되었습니다 예전에는 회사 내 데이터를 엑셀로 가공하고 파워포인트나 엑셀로 시각화 했다면, 제가 오랫동안 강의를 하면서 지켜본 회사에서는 Tableau에서 SAP 데이터를 바로 연결 후 Tableau Desktop에서 시각화 후 Tableau Server에 공유를 하니, 최신화되는 데이터를 누구나 쉽게 볼 수 있어서 데이터 기반 의사결정이 빨라져 전반적인 비즈니스에 대한 이해도가 올라가게 되었다고 합니다.     

 

Q. Data Literacy가 중요해지면서 최근 한국 기업에서도 많이 Tableau를 도입하려고 하는데요. Tableau를 교육하실때 경험하신 부분들이 있을까요?

 기술적인 부분과 조직 문화적인 부분이 있을 것 같아요. 기술적인 부분은 아무래도 IT 부서라던지 데이터를 잘 아시는 분들은 어렵지 않게 따라오시지만 영업, 기획 부서들은 비전공자시기때문에 기술적인 부분을 좀 더 쉽게 풀어 설명하려고 노력하구요. 음.. 사실 조직 문화적인 측면이 더 중요하다고 생각해요. 조직 문화적인 측면에서는 회사 경영진분들이 최대한 Tableau를 이해하고 기존 업무를 Tableau로 활용하여 실제 업무에 도입할 수 있게끔 조정해주는 것이 중요한 것 같습니다.    

 

Q. 최근 데이터 분석 및 시각화 업종이 굉장히 인기있는 것으로 보이는데요. 데이터 시각화를 처음 하시거나 이제 막 시작하는 분에게 전문가로써 드리고 싶은 조언 한마디 부탁드립니다. 

 학생들 상대로 강의할 때 자주 언급하는 부분인데요. 첫 번째는 뭐든지 해보는 게 중요한 것 같습니다. 시도를 해보면 본인이 부족한 점이 무엇인지도 알게되구요. 예를들면, 데이터를 어디서 수집하고 처리하는 지에 대해서도 한계를 느끼게되면 자연스럽게 찾아보게 되면서 실력이 늘게 됩니다. 두 번째는, 시작을 했으면 어느 정도 딥다이브(Deep-Dive)를 하는 것이 중요하다고 생각해요. 예전에는 넓게 본 다음에 한 분야를 더 연구하는 것이 좋다고 하지만, 저는 오히려 깊게 공부하고 노력하다보니 관련된 부분들을 더 찾다 보니 capacity가 더 넓어지는 것을 경험하게 되었습니다. 마지막으로, 본인이 직접 만든 데이터 시각화 결과물을 Tableau Public이나, Linkedin 그리고 블로그 등에 본인이 찾은 인사이트를 반영해 공유하는 것을 추천드려요. 다른 사람들로부터 피드백을 받고 그들이 사용하는 환경 및 디바이스를 고려해 업데이트를 한다면 우수한 데이터 시각화로 연결이 될 것 같습니다. 

 

<인플루언서로 활동하시는 Tech 42 일부> 

중요한건, Tableau는 본인 만족을 위해 사용한다기 보다, 이 데이터를 이해하고 보여주고 싶은 사람의 입장의 취향, 성향에 맞춰 만들게 되면서 나름의 노하우가 쌓이고 그것이 전문가가 되는 지름길이 되지 않을까 싶습니다. 

 

데이터 시각화는 본인 만족보다 데이터를 이해하고 보여주고 싶은 사람의 입장으로 만들어가는 것.. 중요한 조언인 것 같습니다. 다시 한번 인터뷰에 응해주셔서 감사합니다. 이상 강승일 이사님과의 인터뷰였습니다!

 

<SPH 김도환 전임, 빅스데이터 강승일 이사, SPH 이소린 전임>

 

인터뷰 후기 한마디!

김도환 

“ 업무를 하며 ‘태블로 굿모닝 애프터눈’ 책의 도움을 많이 받았습니다. 그런 저에게 실제 저자님을 뵐 수 있는 건 정말 좋은 기회였어요. 그리고 데이터 시각화에 있어 상당한 이력과 실력을 갖추고 계심에도 겸손하신 모습이 인상 깊었습니다. 저희를 편하게 만들어주시기도 하셔서 인터뷰가 즐거웠습니다! ”

 

 이소린                        

“ 데이터에 기반한 의사결정의 중요성.. 그리고 간결,명료하게 보여주는 게 중요하다는 것에 크게 공감하였습니다. 

또한 데이터 시각화에 대한 철학적인 의미에 대해서도 들을 수 있어 좋은 시간이었습니다 :) ”

 


*본 인터뷰는 코로나19 방역에 준수하여 진행하였으며 사진 촬영 시에만 마스크를 내려 촬영하였습니다.

 

 

 

SPH는 Google Maps, SuperMap, Maxar Technologies 등 다양한 케이스에 존재하는 다양한 제품군을 보유하고있는 고객의 사례에 꼭 맞는  무료 세미나 및 인적 컨설팅을 제공하고 있습니다. 각 케이스에 더욱 자세한 이야기를 나누고 싶으시다면,  여기 에서 문의 주시길 바라며, SPH에서 발행하는  GIS / 로케이션인텔리전스 관련 최신 소식 을 받아보고 싶으신 분들은  페이스북 페이지  또는  뉴스레터 를 구독 해 주시길 바랍니다. 감사합니다.

데이터 업계 고수와의 인터뷰 02 – 손진호 연구소장님

손진호 연구소장님

 

데이터 업계의 고수를 찾아 직접 인터뷰하는 컨텐츠! 그 두 번째 고수는 누구일지 기대가 되는데요! 인터뷰 두 번째 손님은 미소정보기술 회사의 손진호 연구소장님이십니다. 미소정보기술 회사는 데이터를 통해 BI 시스템 구축, 의료 정보 분석, 소셜 네트워크 및 텍스트 분석 등 여러 분야에서 왕성한 활동을 하는 빅데이터 전문기업입니다. 11명으로 구성된 작은 회사였을 때부터 145명의 건실한 데이터 전문기업으로 자리매김하는 모든 순간을 함께하신 손진호 연구소장님과의 인터뷰는 어떻게 진행되었을지 살펴보실까요?

 

      Q. 안녕하세요! 소장님. 인터뷰에 응해주셔서 감사합니다. 간단한 자기 소개 부탁드려도 될까요? 

안녕하세요! 만나게 돼서 반갑습니다. 저는 주식회사 클라크라는 국내 지게차 만드는 회사에서 10년 가까이 시스템 기획 등의 업무를 하다가 오래전 미소정보기술로 이직을 하게 되었습니다. 다양한 프로젝트를 20개 이상 진행하면서 실제 필드에서 많은 경험을 하였고 현재 미소정보기술 연구소장을 맡고 있습니다.

 

      Q. 그럼 미소정보기술 회사로 이직을 하신 건 10년 정도 되신거네요? 

그렇죠. 여러 회사 경력은 많지 않지만 한곳에 오래 있는 게 스스로 장점이라고도 생각합니다. (웃음) 그리고 현 회사에서 대기업과의 프로젝트를 많이 하다 보니까 실제 업무 경험을 많이 쌓게 된 것 같습니다. 

 

     Q. 전 회사에서 미소정보기술로 이직을 하게 된 건 어떻게 본다면 완전히 다른 분야로의 이직이라고 볼 수 있을 것 같은데요. 이직을 하실 때 데이터 분석 분야의 이해에 있어서 힘들진 않으셨나요? 

힘들었죠. (웃음) 힘들지만, 한편으론 다른 분야의 도메인을 이해하는 데 큰 발판이 된 것 같습니다. 처음부터 데이터 분석과 같은 분야만 집중했다면 오히려 기업들과의 협업이라던가 프로젝트 진행에 있어서 도메인을 이해하는데 어려웠을 것 같습니다. 반대로 저는 실무를 하고 기획을 했던 경험들이 전혀 데이터에 거부감없이 장점이 됐다고 생각합니다.

 

     Q. 실무 경험이라면? 

타 기업들과 협업을 하게 될 때 기업들의 업무 패턴이나 이런 것들을 전반적으로 이해하고 일을 진행하는 것과 아닌 것의 차이는 크거든요. 그런 부분에서 도메인의 이해에 있어서 큰 충돌이나 어려움이 없었다는 게 장점인 것 같습니다. 

 

     Q. 솔루션 기획, 구축.. 그리고 더해서 인공 지능 분야를 공부하셔야 되는 부분에 있어서는 힘들지 않으셨나요?

이 부분은 매번 말하는 부분인데요. 코딩 레벨이나 스크립트가 가장 중요한 부분이라고는 생각하진 않아요. 데이터 분석을 잘해야 인공지능 모델도 잘 나온다고 생각해요. 데이터 분석을 오래 하고 친숙해지다 보니 인공지능 분야도 빨리 습득하고 업계에서 자리를 잡게 된 것 같습니다.   

   

     Q. 개발 PM 하시면서 20여개의 프로젝트를 도맡아 하셨다고 하셨는데, 가장 인상 깊었던 프로젝트는?

최근에 했던 대형 플랜트 건설사의 개발 요건이 기억에 남네요. 시공을 중심으로 전반적인 플랜트 건설을 맡게 되는 거대 프로젝트인데요. 요건은 이러한 플랜트도 여러 EPC 사의 제안요청서를 받아 가장 좋은 제안을 선택하게 되며 이러한 제안요청서는 PDF 기준으로 파일당 200~400페이지에 달하는 2,000개 이상의 PDF 문서로 전달받게 됩니다. 과거 이를 위해 설계 엔지니어가 한 달 동안 수작업으로 검토하고 분석하여 제안하더라도 1곳만을 선정하니 치열하기도 하고 많은 인력과 비용이 발생하지요. 그런데 문제는 경력자가 사라지면 이러한 노하우나 지식도 사라진다는 거예요. 지식은 사람이 가지고 있고 은퇴나 이직 등 다양한 사유로 다시 시작하고 사라지고 하니, 기업과 지식도 사라진다는 겁니다. 이러한 지식을 담고 제안 요청서를 단기간에 파악할 수 있는 플랫폼을 제안해달라고 하여 연구를 하였고 연구원들과 데이터 분석을 시작, 국내 12개 이상의 기업, 해외 솔루션 대기업 두 군데와 경쟁하여 1차 통과하였으며 마지막에는 해외 대기업들과 경쟁한 끝에 선정된 것이 가장 인상 깊었습니다. 기술도 기술이지만 문제 해결을 위해 치열한 설득과 증명을 한 것이 가장 기억에 남아요.

 

     Q. 쟁쟁한 대기업들과 경쟁에서 이기게 된 노하우가 있을까요? 

꼭 가지고 있는 기술만 제시하고 구축을 하려고 하면 될 수 있는 사례가 많이 없습니다. 도전해야만 만들 수 있고 진행할 수 있는 기회들이 있다고 생각해요. 첨언하자면, 이러한 프로젝트 경험들이 기술 연구소와 결합하면 좋겠다는 생각을 하고 있습니다. 저는 도전적이고 빨리 변화되고 연구개발도 빠르게 순환을 할 수 있게 하는 게 제가 연구소장으로써 추진하는 방향입니다. 

 

     Q. 프로젝트를 진행하실 때 결과적으로 좋은 일도 있지만 갈등도 있을 것 같은데요. 내부, 외부적으로 어떻게 극복하시나요? 

제가 정답은 아니겠지만, 저는 ‘협상’이라고 표현을 합니다. 프로젝트에서는 절대 갑, 절대 을은 없다고 생각해요. 협상해서 합리적인 쪽으로 만들어내면 문제가 없습니다. 하지만 한쪽으로만 고집을 부리게 되면 망하는 케이스가 되는 거라고 생각해요. 서로의 상황을 이해하면서 이루어지는 협상과 협력이 중요합니다.  내부적으로 본다면, 짧은 시간에 완수한다거나 업무 부담과 같은 것들인데요. 회사에는 멘토 제도가 있어서 멘토와 멘티 프로그램으로 서로 문제가 생겼을 때 보완해줄 수 있고 든든한 조력자가 될 수 있기 때문에 업무적 갈등을 최소화할 수 있는 좋은 제도라고 생각해요.

 

     Q. 추가적으로 뜻깊었고 다음에 더욱 개발하고 싶은 프로젝트가 있었나요? 

과거 솔루션 등 가장 뜻깊었던 기억은 메디 허브라는 솔루션입니다. 전 세계에서 발행되는 PUBMED의 정보를 기준으로 MESH TERM이라는 주요 병명과 키워드 간을 분석하고, 의료 논문의 발행 수를 보면서 질병에 대해 한눈에 볼 수 있게 만든 프로그램인데요. 이는 간단하게 의료 연구에 필요하다는 교수님의 의견으로 만들기 시작했습니다. 현재는 미소정보기술 스마트 CDW안에 항상 제공되는 기능으로 소개됩니다. 하지만 이런 부분이 다음에는 공개형으로 환자와 보호자에게 필요한 정보로 제공되면 좋겠습니다. 즉 인공지능 시대에 자동으로 번역되고 새로운 신약의 논문이 어떻게 발행되고 어느 나라에서 관계형 치료나 신약의 관계 등을 알 수 있게 했으면 합니다. 이러한 신약의 정보나 트렌드 정보는 폐쇄적인 것이 큰 문제인데요. 질병을 가지게 되는 환자나 보호자에게는 가장 소중한 시간에 가장 필요한 정보일 수도 있어서 무료로 제공하고 서로 정보를 공유할 수 있는 커뮤니티 정보 App을 만들고 싶네요. 

 

Smart CDW 일부

처: 미소정보기술 웹사이트 (http://www.misoinfo.co.kr/#/misoinfo/solutionDataCdw.do)

 

      Q. 말씀하신 것처럼 개인정보 문제나 이런 제한이 풀리게 되면 하시고 싶은 프로젝트가 있으신가요? 

의료분야는 Closed Domain이지만 다이아몬드와 같은 데이터들이 많다고 생각해요. 이 부분들이 개인정보 문제로 사용될 수 없는 게 안타까운 것 같습니다. 추후에 이런 제한들이 다소 완화된다면 암 발병에 대한 예측과 같은 것들을 인공지능으로 솔루션을 구현하고 싶습니다. 빅데이터를 기반으로 정확도가 더 높아지고 통계적인 접근보다 인공지능 기법으로 질병 예측, 스테이지 관리 같은 것들을 개발했으면 좋을 것 같습니다.

 

     Q.  앞서, 스마트 CDW를 언급하셨는데요. 혹시 의료 분야와 같이 전문 분야를 이해하시고 프로젝트를 진행 하실 때 어려운 점은? 

사실 저는 학부는 컴퓨터 전공, 석사는 물류 시스템, 박사는 공학을 전공했습니다. 다방면으로 공부해서 그런지 다른 도메인 지식을 받아들이는 데 있어서 큰 어려움이 없었던 것 같아요. 금융이나 의료, 제조, 물류 등 베이스적으로 경험을 많이 하게 되면 지식이 폭도 넓어지고 타 분야를 이해하는 데 있어서도 도움이 된다고 생각합니다. 

 

     Q.  2017년 데이터 분석 기법을 활용한 수요예측 모형을 개발하여 서비스 부품 저장위치를 선정하는 논문을 쓰셨는데요. 현재 전자 상거래 웹사이트의 수요 증가와 맞물려 창고 및 허브 관리가 중요시되는 상황에서 서비스 부품이 아닌 상품에 대한 솔루션 개발 계획은 있으신가요? 

요즘에는 리테일이 활발해서 물류가 빨리 배송되는 최적화에도 고민을 많이 하고 있습니다. IBM의 인공지능인 왓슨(Watson), 그리고 One Network의 네오(Neo)등이 물류 공급망 효율을 향상할 수 있게 강화학습을 통한 실시간 의사 결정이 가능한 세상입니다. 과거에는 최적의 위치를 선정하여 작업 효율 개선이나 프로세스 개선을 중심으로 분석했다면, 요즘은 딥러닝의 시대로 강화학습, GAN 등을 통한 예측 방식이 발전되었는데요. 미소정보기술 연구소도 강화학습기반의 풀필먼트 수요 예측 시스템을 준비하고 있습니다. 일반적으로 Markov Decision Process에서 정의된 각 상태(state)의 이전(Transition)에서 행동에 대한 보상을 최대화하는 방향으로 학습하고, 주어진 상태를 바탕으로 Agent는 action을 취하며 action이 environment의 입력으로 새로운 state와 reward를 반환하여 수요예측의 강화 효과가 있고요. 이는 SCM망의 재고 효율화에 강화학습을 통한 풀필먼트 수요 예측반영을 통한 SCM 망내의 풀필먼트가 진행되는 재고의 효율화 강화에 집중하면서, 보다 확장적인 인공지능 기반의 수요예측 시뮬레이션 플랫폼 개발을 목적으로 합니다.

 

     Q.  텍스트 분석, 버즈 분석과같은 솔루션도 개발을 하셨더라구요.

맞습니다. 딱히 수주가 있어서 시작한 솔루션은 아닙니다. 버즈 분석과 같은 솔루션을 개발한 건 빅데이터를 하는 상징성도 있었습니다. 텍스트 데이터를 수집하다보면 트렌드를 볼 수 있고 비슷한 추세로 따라가는 것도 볼 수 있습니다. 현재 미소정보기술에서는 15억 건 이상의 데이터를 운용하고 있고 매일 10만~ 20만 건 정도 수집하면서 정제 및 학습 데이터까지 만들고 있는 업무를 하고 있습니다. 다년간의 경험으로 최적화도 가능해져서 현재는 큰 부담 없이 빅데이터 수집, 정제, 저장에 저희만의 노하우가 생겼습니다. 

 

     Q.  요즘에는 이미지 관련한 인공지능도 많이 바이럴되고 있는데요. 혹시 인공지능이 결합된 이미지 합성과 같은 솔루션도 진행 중인게 있나요? 

사실 이미지 분석은 그전까지는 원천기술이 충분하지 않았고 시스템화시키기에는 아직 이르다고 판단했었는데요. 마침 올해는 트렌드도 맞는 것 같아서 사업에 진행 중에 있는데 학습 데이터를 만들고 학습시키고 분류 판단하는 솔루션을 상반기에 스마트 AL이라는 이름으로 출시될 예정입니다. 


Q. 굉장히 많은 분야에서 개발이 진행되고 있네요. 그렇다면 미래에는 이 업계에서 어떠한 일들을 해나가고 싶은지 여쭤봐도 될까요?

저는 인공지능 쪽에 계속 연구를 하고 싶어요. 이번에 가장 똑똑한 가상 비서를 만드는 프로젝트도 맡게 되었는데요. 제조기업의 가상 비서를 만드는데, 정보를 빨리 찾아서 “이 시간에 교통량이 어때?”라고 할 때 자체적으로 검색해주고 실질적인 정보를 주는 가상비서를 만드는게 목표입니다. 기업과 기관에 들어가게 돼서 이러한 전문화된 비서들이 활동을 하면 업무적으로나 여러 면에서 편해지지 않을까 싶습니다. 사람들이 ‘아이언맨’의 자비스를 보면서 나만의 가상비서가 있으면 너무 좋겠다라고 생각하시는데요. 저는 이러한 ‘나만의 전문화된 가상비서’를 만드는게 5년~10년 안에 만드는 게 저의 목표입니다.  

 

제조현장 특화 인공지능 비서 

출처: 미소정보기술 웹사이트 (http://www.misoinfo.co.kr/#/misoinfo/viewPrNewsDetail.do)

 

     Q. 마지막으로 데이터 업계에서 선두주자로 있으시면서 요즘 데이터 업계쪽으로 관심있으신 분들에게 해주실 조언이나 한말씀 부탁드리겠습니다.  

저는 IT 전문 서적보다는 TED라는 책을 꼭 읽어보시라고 추천해 드리고 싶어요. 유명한 교수나 IT 전문가들이 어떻게 발표하는지 보셨으면 좋겠어요. 새롭게 진입하시는 분들이 자기표현을 잘하셨으면 좋겠는데, 내가 이러한 프로그램을 짰고 Tensor에서 증명했고, 인공지능을 알고 있다는 전반적인 것들을 표현할 수 있다면 큰 장점이며 빨리 성장할 수 있다고 생각해요. 표현력. 그게 가장 큰 무기라고 생각합니다. 

 

 

<우측 손진호 연구소장님, 좌측 SPH 이소린 전임> 

 

‘내가 가진 지식과 기술을 다른 사람들에게 올바르게 표현할 수 있어야 한다’라는 말이 와닿네요. 특히나 마지막에 말씀하신 ‘나에게 특화된 인공지능 비서’는 일반인들에게도 공개되어 많은 사람들에게도 큰 도움이 되는 인공지능 기술이되면 좋겠습니다. 바쁜 와중에 시간 내주셔서 감사합니다. 이상 손진호 연구소장님과의 인터뷰였습니다!

    

 

*본 인터뷰는 코로나19 방역에 준수하여 진행하였으며 사진 촬영 시에만 마스크를 내려 촬영하였습니다.

최우수상 받은 데이터 컨설팅팀, 숨은 뒷이야기!

서울시 빅데이터 캠퍼스 공모전 최우수상 수상!

참여부터 수상까지의 숨은 뒷이야기

 

  • 소개
  • 공모전 주제 선정 
  • 공모전 기획  
  • 데이터 수집 및 ETL 
  • 데이터 분석
  • 데이터 분석 결과 – 어린이 보호 구역으로 지정되어야 하는 3곳!  
  • 잠깐! 토막 소식
  • 아쉬운 점 및 챌린지 
  • 수상 결과에 대한 의견 및 소회

 

  • 소개

서울시 빅데이터 컨퍼런스에서 김도환 전임 연구원의 발표 모습

서울시 빅데이터 컨퍼런스에서 김도환 전임 연구원의 발표 모습

안녕하세요! SPH 데이터 컨설팅팀이 이번 2020 서울시 빅데이터 캠퍼스에서 주최한 빅데이터 공모전에서 최우수상을 수상하였습니다. 이번 공모전은 주제 선정에서부터 수상까지 의미있고 재미있었던 부분들이 많았는데요. 공모전 주제 선정에서부터 수상까지 SPH 데이터 컨설팅팀의 전문적인 분석 과정과 노력등을 공유해 드리려고 합니다.      

 

  • 공모전 주제 선정

최종으로 선정된 주제: 新 어린이 보호구역 제안 

서울시 빅데이터 캠퍼스에서 주최한 공모전은 예전부터 관심이 많이 있던 공모전입니다. 다른 주최사와 달리 사용 가능한 데이터, 즉 빅데이터를 기반으로 분석을 자유롭게 할 수 있다는 점에서 꼭 참여하고 싶었습니다. 주제 선정에 있어서는 꽤나 고심을 많이 했는데, 그 이유는 SPH 데이터 컨설팅팀은 사회 전반에 걸쳐 여러 주제에 관심이 많기 때문입니다. 예를 들어, ‘흡연 구역 설정’, ‘최적의 따릉이 구역’처럼 사회적으로 충분히 도움이되는 분석 결과를 내놓는다면 좋겠다라는 생각을 하고 있었습니다. 또한 양질의 데이터의 유무가 중요하다고 생각하는데요. 분석하고자 하는 주제가 굉장히 좋아도 데이터가 충분하지 않다면 분석 결과의 신뢰도에도 영향을 미치기 때문입니다.

저희는 어린이 교통사고에 관한 뉴스들을 다수 접하면서 ‘어린이 보호구역’에 대해 관심을 갖게 되었고 관련 데이터가 서울시 및 여러 기관에서 제공하는 것을 확인한 뒤에 최종으로 이 주제를 선정하게 되었습니다. 또한 현재 어린이 보호구역은 어떠한 특징과 법안이 있는 지 살펴 보았는데, 생각보다 허점이 있다는 것을 알게 되면서 데이터 분석 및 기획을 시작하게 되었습니다. 

 

  • 공모전 기획 

프로젝트 소개부터 결과까지의 과정 

 

빅데이터를 이용한 분석도 중요하지만 데이터 분석가로서 중요한 역량 중 하나인 상호 커뮤니케이션, 즉 설득력있는 기획을 어떻게 진행할 것인지에 대해 고민을 했습니다. 아무리 분석을 잘해도 사람들이 이해하기 쉽지 않다면 분석한 결과의 가치가 많이 떨어지기 때문에 분석에 ‘스토리’를 담아 PPT에 녹여냈습니다. 

이 주제를 선정한 배경, 사회적 상황, 어린이 보호구역의 현재 법률적 효력 등 사회적 이슈와 現 어린이 보호구역 기준의 변화에 대한 긍정적인 결과 순으로 PPT에 담아내려 노력했습니다. 또한 ‘당위성’이 중요한 부분이라 생각하였습니다. 저희가 특정 데이터를 수집 및 이용한 이유, 데이터 분석에서 머신 러닝 모델을 이용한 이유와 결과물에 대한 심도있는 해석까지 포함한 내용이 들어있습니다 (아래 발표영상 링크 참고). 빅데이터 분석으로 끝나는 게 아닌, 적재적소에 이 분석 결과가 사용되길 바라는 마음을 담아내어 기획을 했습니다.  

   

  • 데이터 수집 및 ETL

어린이 교통사고 현황 [출처: TASS 교통사고 분석 시스템] 

어린이 교통사고 데이터는 TASS에서 지난 6년 간의 데이터를 수집할 수 있었기 때문에, 꽤 양질의 데이터를 모을 수 있었습니다. 또한 서울시 빅데이터에서 제공하는 SKT 유동인구 데이터를 통해 10대 유동인구의 이동 동선을 확인할 수 있었으며 초등학교 및 유치원, 그리고 어린이 보호구역 현황은 서울시 열린 데이터 광장(https://data.seoul.go.kr)에서 수집했습니다. 

‘데이터 분석의 꽃은 전처리’라는 말이 있을 정도로 저희 SPH 데이터 컨설팅팀은 데이터 전처리에 많은 노력을 기울였습니다. 어떠한 데이터를 추출하고 필요하지 않는 데이터는 어떻게 보관할 것이며, 중요한 데이터 중 어느 변수를 원 핫 인코딩 처리 할 것인지, 그리고 결측치 처리 및 Outlier 처리에 관련하여 많은 노력을 들였습니다.  

 

 

  • 데이터 분석

데이터 수집부터 분석 결과까지의 과정을 시각화한 차트

지도 학습 및 비지도 학습 등 여러 분석 방법들이 있는데 저희는 ‘어린이 교통사고 건수’라는 Target 값이 있었기 때문에 지도 학습으로 진행하였습니다. 또한 여러 전문적인 머신러닝 회귀 모델들이 많았는 데, 이번 분석에서는 머신러닝의 모델을 이용했습니다. 모델 중 최적 모델 선택에 있어서는 MAE (Mean Absolute Error)을 기준으로 가장 낮은 오류 값을 가진 모델이 성능이 좋은 모델이라 판단하였습니다. 저희의 분석 결과로는 10개의 모델 중 Random Forest Regressor가 가장 최적의 모델로 선정되었습니다.    

Random Forest Regressor는 앙상블 회귀 모델로써 MAE가 0.08의 가장 낮은 오차값을 가지고 있습니다. 이 모델이 선정한 중요 변수와 Pearson Correlation에서 중요 변수로 제시된 변수들은 ‘10대 유동인구’,’주변 유치원 수’, ‘주변 초등학교 수’입니다.  (아래 사진 참고)

 

머신 러닝 모델이 선택한 중요 변수들 및 필터링 과정

 

저희 공모전 주제는 데이터 분석 관점이 두 가지로 나뉩니다. ‘현황 분석’과 ‘예측 분석’. 현황 분석과 예측 분석으로 나뉜 이유는 1.현재 문제점을 조금 더 정밀히 파악하고 어린이 보호구역 기준의 미흡함에 대해 경각심을 주기 위함2.현재는 알 수 없지만 예측을 통해 머신 러닝 분석 결과에 기반하여 미래 사고 위험도를 알려주기 위함이었습니다. 

현황 분석은 데이터 분석을 통해 알게된 중요 변수들을 통해 필터링을 하여 어린이 보호구역으로 설정되진 않았지만 설정되어야 하는 곳들을 나열했습니다. 중요 변수들은 ‘초등학교 수’, ‘유치원 수’, ‘10대 유동인구 수’였는데 이 값들에 특정 기준치 이상일 경우 현재 어린이 보호구역으로 선정되어야 하는 구역을 나열했습니다. 특정 기준치는 ‘10대 유동인구 수’는 상위 10%값, 유치원 수는 1곳 이상, 초등학교 수는 2곳 이상으로 이 모든 기준치에 부합되는 장소인데 어린이 보호구역으로 선정되지 않았으며 사고 수가 5건 이상인 경우인 장소는 로드맵을 통해 실제 어린이 보호구역으로 어느 장소까지 보호되는지 살펴보았습니다. 

예측 분석은 말 그대로 머신러닝 알고리즘이 예측한 사고 건수입니다. 예를 들어 사고가 1건이 일어난 장소들을 Test Set(216건)으로 선정하여 현황 분석때 이용한 머신러닝 모델을 통해 이 장소들이 향 후, 얼마나 사고 건수가 상승하는 지 살펴봤습니다. 그 중 43곳은 사고 발생 건수가 2건 이상이었으며 이 점을 토대로 어린이 교통 사고가 일어날 확률이 높으니 지정이 반드시 필요하다라는 점을 피력했습니다. 

 

  • 데이터 분석 결과 – 어린이 보호구역으로 지정되어야 하는 3곳!

빅데이터 및 AI를 통해 알아낸 어린이 보호 구역 지정으로 시급한 TOP3 지역

데이터 분석 결과 중 현황 분석을 통한 결과를 보여드리자면, 가장 어린이 보호구역으로 지정되어야 되는 시급한 곳은 1. 석촌 호수로 잠실 새내역 사거리 2. 내발산동 강서로 47길 3. 구로구 개봉동 179-46으로 나타났습니다. 어린이 교통사고가 5건 이상 발생되며 초등학교 및 유치원이 주변에 위치하며 10대 유동인구가 상위 10% 이상 존재하는 장소임에도 불구하고 어린이 보호구역으로 지정되지 않은 곳입니다.

어린이 보호 구역 지정으로 시급한 TOP3 지역의 실제 사진 및 사고 현황

석촌 호수로 잠실 새내역 사거리인 경우는 반경 400m 지점까지 어린이 보호구역이 없었으며, 구로구 개봉동 179-46과 내발산동 강서로 47길 3은 어린이 보호구역이 존재하나 그 주변에서 일어나는 어린이 교통사고가 존재하는 것으로 보입니다.  현재 법령으로는 볼 수 없지만 빅데이터 및 AI를 통해서 찾을 수 있는 ‘사각 지대’입니다.  (자세한 분석 내용은 아래 자료 공유를 참고해주세요)

 

  • 잠깐! 토막 소식 

어린이 보호구역 지정에 대한 염원이 서울시에 닿았는지, 최근 잠실 학원 사거리에 기존에 없던 어린이 보호구역 및 30km 속도 제한 과속 카메라가 설치되었습니다. 저희 데이터 분석 결과였던 어린이 보호 필수 구역 1위로 선정된 곳에 CCTV 설치 및 어린이 보호 구역으로 지정이 되어 이 근방의 어린이 교통사고 예방에 긍정적인 변화가 있을 것으로 예상됩니다! 아래 사진은 SPH 조영만 차장님께서 어린이 보호구역 지정에 대한 기쁜 마음을 담아 공유해주신 사진입니다.

최근 잠실 학원 사거리에 설치된 어린이 보호구역 및 과속 카메라 모습

 

  • 아쉬운 점 및 챌린지 

서울시 빅데이터 캠퍼스에 참여하게 되면서 느낀 점 중 아쉬웠던 부분은 데이터의 불균형입니다. 예를 들면 서울시 빅데이터 캠퍼스이지만 사실상 대한민국을 대표하는 빅데이터 캠퍼스이기 때문에 분석 주제가 서울시로 국한되지 않습니다. 하지만 서울시 외의 데이터들은 잘 갖추어있지 않거나 양질의 데이터가 많지 않다보니 자연스럽게 분석 타겟이 서울 시내로 맞춰지는 게 조금 아쉬운 부분이었습니다. 대한민국 내의 행정에 관련된 데이터들이 한 곳에 잘 정리되어 있다면 소외된 지역에 관한 효율적인 빅데이터 분석이 가능하지 않을 까 싶습니다.   

 

  •   수상 결과에 대한 의견 및 소회

2020년 저희 데이터 컨설팅팀이 사회 이슈에 대해 열심히 분석하고 관심을 갖게 된 것에 대한 ‘선물’이라고 생각합니다. 다른 공모전 팀들도 분명히 필요한 뜻깊은 분석을 하였으며 공모전 참여만으로도 다른 팀들의 분석 인사이트를 보면서 배울 점이 많았습니다. 서울시 빅데이터 캠퍼스 사옥에도 방문해보고 공공 데이터가 어떻게 관리되는 지 배우는 시간이었습니다. 또한 저희 뿐만 아니라 많은 참가자들이 빅데이터 분석에 크게 관심을 갖는 것을 볼 때, 미래에는 정말 빅데이터를 통해 과거보다 더 도움이되는 정책들이 나오지 않을 까 기대됩니다. 저희 SPH 데이터 컨설팅팀은 사회적 이슈 및 여러 공공 사안을 비롯하여 흥미로운 주제들로 인사이트있는 분석을 가지고서 다시 찾아뵙겠습니다. 감사합니다.

  

서울시 빅데이터 캠퍼스 최우수상 시상식 

Blog written by 이소린 전임 연구원

 

김도환 전임 연구원 발표 영상 및 분석 자료 다운로드: 


SPH는 CARTO, Google Maps, SuperMap 등 다양한 케이스에 적용될 수 있는 다채로운 제품군을 보유하고 있으며 고객의 사례에 꼭 맞는 무료 세미나 및 개별 컨설팅을 제공하고 있습니다. 각 케이스에 맞춰 더욱 자세한 이야기를 나누고 싶으시다면 여기에서 문의 주시길 바라며, SPH에서 발행하는 GIS/로케이션 인텔리전스 관련 최신 소식을 받아보고 싶으신 분들은 페이스북 페이지 또는 뉴스레터를 구독해 주시길 바랍니다. 감사합니다.