인공지능이 추천하는 국내 관광 코스는?

인공지능이 추천하는 국내 관광 코스는?

(feat. 부산광역시, 여수시)

 

What? – 인기 관광 코스 찾기

<코로나19 이후 다시 주목받게 된 국내 여행>

 

 

  안녕하세요! SPH 데이터 컨설팅팀입니다. 무더운 여름, 더위를 피하기 위한 여행 계획은 다들 세우셨나요? 🏝
코로나19 이후 해외여행이 어려워지면서 국내 여행이 주목받고 있습니다. 해외여행은 코로나19 팬데믹 사태 이후에 관광객 수가 1990년 수준으로 급감하였다고 합니다. 한국만 보더라도 해외여행을 대체할 여행지로 제주도, 부산, 여수 등이 손꼽히고 있는데요!
여행이 핫 키워드인 요즘, SPH 데이터 컨설팅팀은 국내 관광코스를 추천드릴 수 있게 인공지능을 이용하여 야심 차게 분석해보았습니다. 

 

 힘들고 어려운 관광 코스가 아닌 사람들이 상식적으로 생각하는 여행 스케줄을 실제 빅데이터를 기반으로 관광 코스를 검증하면서, 관광 정책을 실제 기획하고 실행하는 정책 결정자분들께 인사이트를 제공할 수 있어 큰 의미가 있는 데이터 분석이었는데요. 한 번 같이 확인해보실까요?

 

“ 전주 관광할때 같이 방문할 수 있는 1타 3피 관광. 할 수 있을까?”

 분석에 앞서 저희가 원하는 최종 분석 목표에 대해 말씀드리자면 빅데이터를 통해 주요 관광 도시와 가장 효율적으로 연계될 수 있는 여타 도시를 찾아 관광 거점을 만들어내는 것입니다. 우리의 소중한 휴가를 부산뿐만 아니라 다른 지역까지 여행할 수 있다면? 뜻깊은 여행이 될 것 같습니다.

 

How? – 1/2 Data

 

 

 그렇다면 어떤 데이터를 이용해서 관광 코스를 선정해볼 수 있을까요? 맛집은 따로 광고하지 않아도 문지방 닳도록 손님이 끊이질 않습니다. 입소문으로 맛집이 되는 경우가 큰대요! 하지만 저희는 ‘소문’에 의지하지 않고 데이터에 기반하여 관광 코스를 선정해보려고 합니다. 데이터는 SK텔레콤 통신 데이터를 기반으로 분석해보려고 합니다.

 

<부산 광역시가 포함된 동선 데이터>

 

 통신 데이터에는 동선 데이터가 있습니다. 그리고 50만 개가 넘는 동선 데이터는 여행객의 행동 패턴이라고 볼 수 있습니다. 여행객이 남긴 발자취가 담긴 데이터인데요. 이 동선 데이터에는 성별, 나이 대, 그 동선을 이용한 인구 수 등이 포함되어 있습니다. SK 텔레콤의 전문 기술을 통해 추계된 인구 통계 데이터로써 SK 텔레콤 가입자 뿐만 아니라 전체 인구를 추산한 데이터를 기반으로 분석을 하여 데이터에 대한 정확도가 한층 더 높은 것을 알 수 있습니다. 

 

<통신 빅데이터 산출 기준>

 

 전체 동선 데이터 중 분석을 위해 선별한 데이터는 남부권입니다. 무더운 더위를 피하기 위해 경상도 · 전라도 여행을 고려하고 계시다면, 이번 분석 결과에 더 집중하시면 좋은 정보 얻어 가실 수 있을 것 같습니다! 또한 관광객이 아닌 거주민이 포함된다면 분석 결과에 오류가 있을 수 있으니, 2019년 사계절 비성수기와 통근, 통학 및 출퇴근 이동과 같은 일정한 패턴을 보이는 데이터는 제외했습니다. 

How? – 2/2 Analysis

 분석에는 딥러닝, 머신러닝 알고리즘을 이용했습니다. 인공지능이 추천한 관광 코스를 알기 위해 텍스트로 되어있는 동선 데이터를 네트워크 그래프로 변환하였는데요. 여기서 잠깐! 시퀀스 모델인 RNN이나 LSTM을 이용하지 않은 이유에 대해 여쭤보실 수 있습니다. 

“동선 ≠ 문장”

동선 데이터의 구조를 보자면 부산 → 완도라는 비정형 데이터로 이루어져 있습니다. 또한 부산 → 완도 → 부산과 같이 부산이 두 번 이상 포함되는 동선도 있으며 부산 → 완도처럼 전혀 다른 방향성을 지닌 데이터도 있습니다. 즉, 문장처럼 규칙이 있는 데이터가 아닌데요. 이와 같은 구조에서 RNN이나 LSTM을 이용한다면 부산 → 완도가 완도 → 부산보다 더 많이 언급될 경우 관광 코스 예측 시 부산 → 완도가 선정될 가능성이 큽니다. 하지만 저흰 동선 자체를 하나의 변수 데이터로 보기 위함이기에 네트워크 그래프로 표현하였습니다.

 

“수요가 있고 연계성이 좋은 동선 = 인기 관광 코스” 

 

관광 코스 선정에 있어서 주요 키워드인 PPI 알고리즘을 설명드리겠습니다. 위에 설명드린 동선의 네트워크 그래프 화가 끝났다면 가장 큰 두 축은 1. 동선 유사도(연계성)과 2. 군집분석(수요가 있는 동선 찾기)입니다. 지역에서 다른 지역으로 이동하기가 쉽고 많은 관광객들이 찾는 동선이라는 두 마리 토끼를 모두 잡는 지수를 산출해 하기 때문에 아래와 같은 과정을 갖게 되었습니다. 자칫 복잡해 보이지만 아래에서 쉽게 설명드리겠습니다.

 

<PPI 산출 알고리즘>

 

 

01. Graph Edit Distance (동선 유사도)

A동선과 B동선의 차이는?

 

 

 

 

 동선 유사도 (Graph Edit Distance)라는 단어가 생소하게 들리실 수 있을 것 같습니다. 쉽게 접근하자면, 부산 → 완도 동선과 하동 → 부산 동선의 차이점을 컴퓨터는 과연 어떻게 찾아낼까요? 네트워크 그래프로 표현된 동선의 차이점은 동선 유사도를 통해 산술적으로 나타낼 수 있는데요. 노드와 엣지로 표현된 동선들이 다른 동선으로 변환되는 데의 cost를 표현하기 때문에, 동선 유사도 수치가 높을수록 A동 선과 B 동선은 유사성이 떨어진다고 볼 수 있습니다. 그렇게 각 동선과 다른 50만 개의 동선들과의 동선 유사도를 계산하여 평균값을 내어 ‘이 동선은 다른 동선들과의 연계성이 높고/낮다’를 수치로 표현할 수 있습니다. 하지만 동선이 연계성이 가장 높다고 해서 무작정 인기 동선으로 선정하기에는 불충분합니다. 인기 동선은 ‘수요’가 있어야 인기 동선입니다. 그래서 소개드릴 두 번째 과정을 통해 수요가 높은 동선을 선정하였습니다.

 

02. 임베딩 (Embedding), 그리고 군집 분석

가장 인기있는 동선 그룹은?

 

 마지막 과정은 임베딩, 군집분석, 그리고 인기 동선 그룹 선정입니다.

 

<그래프 임베딩 시각화 도움 자료>

임베딩이란 무엇일까요? 임베딩은 컴퓨터가 이해할 수 있는 숫자 형태인 vector로 표현하는 과정이라고 생각하시면 쉽습니다. 부산 → 완도라는 동선을 컴퓨터는 이해하기 어려우니 벡터 형식으로 표현하여 분석할 수 있게 만드는 중요한 과정입니다. 50만 개 이상의 동선 네트워크 임베딩에는 Graph2vec이라는 모델을 이용했는데요. 이 모델을 이용하여 그래프의 클러스트링에 큰 효과를 보았다는 논문을 기반으로 Graph2vec 모델을 활용하였습니다. 

 

<임베딩 후 군집분석을 통해 3 그룹으로 나뉜 동선들>

 

 그렇게 그룹화가 된 동선들 중에서 평균 관광객 수가 가장 높은 그룹을 선정합니다. 선정된 그룹과 저희가 앞서 계산한 동선 유사도를 조합하여 가장 인기 있는 동선을 찾아낼 수 있습니다.
(자세한 PPI 산출식은 블로그 아래 링크로 신청하시면 발표 자료 및 논문에서 확인 가능합니다.)

<순천시 PPI 지수 결과 예시>

 

연계성이 높은 동선 (동선 유사도)와 수요가 높은 동선 (인기 동선 선정) 과정에 거쳐 산출한 PPI는 5점 만점으로 나타낼 수 있습니다. 5점일수록 순천과 연계할 수 있는 관광코스로 제격이라 볼 수 있는데요! 위의 표에서 순천시를 본다면, 순천시는 여수시, 광양, 고흥이 가장 연계성이 좋은 관광 코스로 나타났습니다. 1점대를 얻은 진주, 하동은 여수, 광양에 비해 관광 코스로 연계하기 다소 어려움이 있을 것이라는 것을 수치를 통해 이해할 수 있습니다. 

 

Where?

 

그렇다면 일련의 과정을 거쳐 나온 결과를 자세히 소개해 드리려고 합니다. 보여드릴 장소는 부산광역시와 여수시입니다! 

먼저 ‘여름 바다’하면 떠오르는 대표 관광지는 역시, 부산이지 않을까요?  😎

 

부산의 경우, 거제, 김해, 울산을 아우르는 관광 코스가 가장 인기 있는 코스로 나타났습니다.  특히 부산에서 통영, 그리고 거제시로 관광하는 코스와 부산에서 김해시로 가는 코스가 가장 인기 있었는데요! 여름 하면 부산 갈매기가 떠오르는 것처럼, 분석 결과에서도 여름에 가장 수요가 높은 것으로 나타났네요. 또한 10대, 30대 남성 관광객분들이라면 이 코스로 여행해보시면 좋을 것 같습니다. 

주요 관광 코스 외에도 두 번째로 인기 있는 지역들은 양산, 창원, 통영, 밀양 순으로 나타났습니다. 또한 동선 데이터가 방향성이 있기 때문에 네트워크 그래프에서도 부산에서 출발하는 동선이 인기 있는 동선들로 확인되네요. 부산에서 김해, 울산 등 다른 지역 탐방에는 대중교통 및 여러 환경에 의해 부산에서 출발하는 수요가 높은 것으로 보입니다.

 

 

여수 밤바다. 사실 밤바다 중에 가장 유명해진 밤바다는 여수 밤바다가 아닐까 싶습니다.
하지만 여수 밤바다와 함께 다른 유명 지역도 같이 관광한다면 그게 바로 일석이조, 일석삼조가 되지 않을까 싶은데요!

여수시의 경우 광주에서 여수시를 거쳐 순천시를 가는 코스와 여수시에서 순천시를 가는 코스가 가장 인기 있는 코스로 나타났습니다.  3지역과 2지역 모두 여수시는 순천시와 떼어놓을 수 없는 관광 코스라는 점에서 의미가 있는 것 같네요. 여수시에 들렸다가 순천 갈대밭 축제 (순천만 갈대축제)를 보러 가시는 관광객이 많을 거라 예측됩니다. 

여수 바다와 순천의 갈대밭이 인기 코스로 보이듯, 여수는 봄과 가을에 가장 인기 있는 관광지로 나타났습니다. 또한 남성, 여성, 20대 , 50대 등 부산과는 달리 다양한 성별, 연령대를 아우를 수 있는 관광 코스로 보여집니다.

 

 

 여수와 연계될 수 있는 관광 코스로 순천뿐만 아니라 남해, 광양, 고흥 등 인기 코스로 보이는 곳들이 다수 존재하여 여수시를 방문하실 때 위에 나열된 지역들도 고려해본다면 최고의 여행이 될 것 같습니다. 또한 여수시의 경우 여수에서 출발하는 코스가 인기가 많은 것으로 나타나, 여수시를 방문하고 남해 광양 등 주변 도시를 탐방하시는 것이 연계성이 가장 좋을 것으로 보입니다. 

 

이렇게 통신 데이터인 동선 데이터를 기반하여 인공지능이 선정한 가장 인기있는 관광 코스를 살펴봤습니다. 관광객의 발자취 데이터를 통해 인공지능을 활용한 찐 관광 코스를 알아보는 시간! 어떠셨나요?

이번 여행 계획을 세우고 계시는 분들에게 좋은 정보가 되었으면 하네요~

 

이상 SPH 데이터 컨설팅 팀이었습니다! 

 

 


 

연구 자료 및 발표 자료가 궁금하시다면?

데이터 컨설팅팀 발표 자료 및 논문 자료 다운로드:  인공지능 기반 관광코스 추천 

 

SPH는 Google Maps, SuperMap, Maxar Technologies 등 다양한 케이스에 존재하는 다양한 제품군을 보유하고있는 고객의 사례에 꼭 맞는  무료 세미나 및 인적 컨설팅을 제공하고 있습니다. 각 케이스에 더욱 자세한 이야기를 나누고 싶으시다면,  여기 에서 문의 주시길 바라며, SPH에서 발행하는  GIS / 로케이션인텔리전스 관련 최신 소식 을 받아보고 싶으신 분들은  페이스북 페이지  또는  뉴스레터 를 구독 해 주시길 바랍니다. 감사합니다.