Posts

대한민국 도시기반 웹사이트, SPH 데이터샘 론칭!

대한민국 도시들을 기록합니다_DATASAM

SPH가 선보이는 새로운 도시기반 웹사이트

 

 

안녕하세요! SPH입니다.

 

해외 시장을 분석할 때, 직접 그 나라에서 발로 뛰지 않아도 코트라를 통해 다양한 정보를 얻을 수 있습니다.

그렇다면, 한국 도시를 분석할 땐 어떻게 할까요?

SPH가 론칭한 도시기반의 새로운 웹사이트, 데이터샘을 이용해 도시 분석 데이터를 수집해 보세요!

 

데이터샘은 2021년 9월, 위치 인텔리전스 솔루션 전문 기업 SPH가 런칭한 웹사이트로 국내 여러 도시의 데이터를 제공합니다.

데이터샘은 어떻게 도시 데이터를 보여주는지 함께 둘러볼까요?

 

1.다양한 카테고리

데이터샘은 8가지 카테고리(정치·사회, 관광, 인구, 경제, 주택, 편의시설, 의료, 교육)에 대한 분석 자료를 제공해 전국 일주를 하지 않아도! 다양한 분야에 관한 한국 도시 정보를 얻을 수 있습니다.

 

2.명확한 출처 표기로 신뢰도 UP

공공 및 민간에서 얻은 로우 데이터(Raw data)의 출처를 표기하여 신뢰도를 높입니다.

 

3.자료의 시각화

이해하기 어려운 정보는 없다! 시각화 차트를 통해 한눈에 쉽고 빠르게 이해할 수 있습니다.

또한, 지도에 분포도를 표시하고, 지역 내 주요 인물의 사진을 제공하여 직관적으로 인식할 수 있습니다.

 

4.최신 기술을 활용한 리포트

SPH의 데이터 컨설팅, 맞춤형 데이터 시각화 대시보드 구축, 자체 개발 AI 기술을 이용하여 카테고리별 리포트를 제공합니다.

SPH의 시각으로 해석한 리포트는 특히 더 흥미롭습니다! 이 외에도 다양한 주제가 준비되어 있으니 둘러보시는 것을 추천드립니다!

 


 

현재 데이터샘에서 기록한 도시는 아래와 같습니다.

(서울 – 서울특별시, 강남구, 서초구, 마포구 / 수도권 – 인천광역시, 용인시 / 충청권 – 대전광역시, 세종특별자치시 / 강원권 – 강릉시, 춘천시 / 경상권 – 부산광역시, 진주시 / 전라권 – 광주광역시, 전주시)

 

더 많은 도시의 데이터를 구축하는 그날까지! 데이터샘에 대한 뜨거운 관심 부탁드립니다~

데이터샘 바로 가기 또는 관련 뉴스기사를 보고 싶으시다면 클릭해주시기 바랍니다 :)

 

SPH는 Google Maps, SuperMap, Maxar Technologies 등 다양한 케이스에 존재하는 다양한 제품군을 보유하고있는 고객의 사례에 꼭 맞는  무료 세미나 및 인적 컨설팅을 제공하고 있습니다. 각 케이스에 더욱 자세한 이야기를 나누고 싶으시다면,  여기 에서 문의 주시길 바라며, SPH에서 발행하는  GIS / 로케이션인텔리전스 관련 최신 소식 을 받아보고 싶으신 분들은  페이스북 페이지  또는  뉴스레터 를 구독 해 주시길 바랍니다. 감사합니다.

 

여의도 직장인들을 위한 찐맛집은?

여의도 직장인들을 위한 찐 맛집은?

(1만 5천 개 이상의 맛집 리뷰 데이터 분석!)

“점심 뭐 먹지?”

 

직장인들의 중심지, 여의도에서 맛집을 찾는 것은 회사원들에게는 중대한 결정 사안 중 하나입니다. 대부분 입소문으로 식당을 가거나 인터넷 속 ‘후기’들로 소중한 점심 메뉴를 결정짓죠. 인터넷에는 식당 리뷰를 볼 수 있는 플랫폼이 매우 많지만, 업무로 바쁜 직장인들에게 일일이 모든 리뷰를 찾아보는 건 어려운 일입니다. 더군다나, 힘겹게 찾아낸 식당이 맛집이 아닐 경우 허탈감이 이루 말할 수가 없습니다. 누구나 한 번쯤은 블로그 리뷰를 보고 갔다가 실망하고 돌아와 봤을 거라 생각합니다. 

 

‘수많은 맛집 찾기 플랫폼에서 과연 어떤 정보가 믿을 만한가? 진짜 맛집을 찾을 수 있게 알려주는 정직한 곳이 없을까?‘ 

 

이번 포스트는 이와 같은 문제에 대한 저희 SPH 데이터 컨설팅팀에서 찾아낸 나름의 해답입니다. 맛집은 주관적인 요소를 상당히 많이 포함하고 있기에, 저희의 솔루션이 범용적인 모범 답안일 수는 없음을 말씀드리고 싶습니다.

우선 맛집과 관련된 모든 포털 사이트의 리뷰 정보를 취합하고 분석하는 과정을 보여드리려 합니다. 분석 과정에서 저희는 3가지 관점을 기준으로 삼고 각 기준별로 맛집 순위를 매겼습니다. 이러한 배경에는 앞서 말씀드렸듯이, 맛집에 대한 기준은 주관적이기에 1가지 관점만으로는 순위를 매기기가 어렵다는 데 있습니다. 저희 SPH 데이터 컨설팅팀은 ‘맛집 탐방러’에게 보다 신뢰할 만한 정보를 제공함으로써, 작게나마 여의도에서 식사하시는 분들께 소소한 행복을 전해드리고 싶습니다.

 

0. 맛집 리스트 선정

처음부터 전국 맛집을 모두 분석하기엔 음식점 개수가 너무나 많았습니다. 천 리 길도 한 걸음부터라고, 전국지점을 분석하기에 앞서 작은 한 지역부터 분석해보기로 했습니다. 이를위해, 저희가 근무하는 곳인 여의도 지역 내의 일부 맛집 데이터만을 분석해보고, 추후 (반응이 좋을 경우) 확장하기로 했습니다. 일종의 pilot study 개념으로 진행하였지만, 이번 분석을 통해 데이터 수집에서부터 분석까지 전체적인 파이프라인을 구축하였습니다.

여의도 찐 맛집을 조사하기에 앞서, 여의도 맛집 리스트 목록이 필요했습니다. 망고플레이트는 구글에 ‘맛집 검색’으로 검색하였을 경우 1순위로 등장하는 사이트입니다. 다이닝코드와 식신, 메뉴판 닷컴 등도 있지만 망고플레이트의 영향력이 아직 제일 높다고 생각하였기에 망고플레이트를 기준으로 맛집 리스트를 선정했습니다. 

망고플레이트에서 ‘여의도 맛집’이라고 검색할 경우 총 44개의 장소가 나옵니다. 한식, 일식, 양식에서부터 카페, 뷔페까지 다양한 업종의 장소들이죠.

이 44개 맛집의 주요 포털 사이트 5곳의 후기들을 취합하여 ‘진짜 맛집’을 보여드리려고 합니다.

 

1.리뷰 지수 

  리뷰란 가보지 못한 곳을 먼저 개척한 사람들에게 듣는 스토리이기도 합니다. 식당을 먼저 가본 고객들이 써 내려간 솔직 담백한 후기들을 보고, 우리는 해당 식당을 방문할지 말지를 한 번 더 고민하게 됩니다. 일부 광고성 리뷰를 제외하고, 대체로 리뷰가 긍정적인 식당이라면 ‘무난하게’ 점심을 즐길 수 있습니다. 리뷰를 통해 얼마나 맛있는지에 대한 점수를 매길 수 있습니다.

단, 이때 사용되어야 할 리뷰는 신뢰할만한 데이터여야겠죠. 리뷰 데이터가 신뢰성을 가지기 위해선, 광고성 리뷰나 의도적인 영업 방해 의도로 작성된 리뷰를 가려낼 수 있어야 합니다. 저희 SPH 컴설팅 팀에서는 리뷰 데이터로부터 신뢰성있는 정보를 추출하기 위해 평가하는 사람의 패턴과 점수 분포, 개수 분포 등을 반영하였습니다. 이를 바탕으로 텍스트 데이터에 대한 감성분석을 진행하고, 리뷰와 관련된 여러 메타 데이터와 조합하여 리뷰 지수를 산출했습니다.

 

데이터 분석 전문가가 분석한 단순하지만 정교한 맛집 리뷰 지수!

구글, 네이버, 카카오 등 식당 후기를 찾을 수 있는 플랫폼은 무궁무진합니다. 저희는 주요 포털사이트 5곳에서 최근 6개월 동안 고객들이 남긴 개별 리뷰 점수들을 총 취합하였고, 앞서 소개해드린 과정으로 저희 나름의 리뷰 지수를 산출했습니다. 리뷰 지수를 통해 산출된 결과는 카테고리별로 위 그래프와 같이 나타낼 수 있습니다. 한식에서는 진주집이, 일식에서는 아루히, 양식에선 테이스팅룸, 중식에선 라무진, 카페에서 그레이에스프레소가 높은 점수를 차지했습니다. 

 

리뷰지수 산출에 쓰인 딥러닝 기반 감성 분석

리뷰지수에는 리뷰의 점수 분포나 리뷰를 단 사용자의 패턴뿐만 아니라 텍스트 자체의 *감성 분석 결과도 포함되어 있습니다. 단순히 포털 사이트별 리뷰 점수를 취합한 수치가 아닌, 딥러닝을 통해 해당 식당에서 올라온 모든 후기 글의 감성 점수를 취합하였습니다. 또한 각 플랫폼에 나타난 식당 전체 평균 점수에서도 상대적으로 긍정의 비율이 높은 식당에는 가중치를 더 많이 주는 방법을 통해 차별화를 두었습니다.

 

 

이때 쓰인 감성 분석을 간략히 표현한다면 위 그림처럼 나타낼 수 있습니다.  우선 리뷰 텍스트 데이터내 단어들을 벡터로 임베딩 시켜줍니다. 임베딩을 통해 생성된 벡터를 딥러닝 모델의 입력값으로 활용합니다. 단어 임베딩 기법을 사용하였기에 단어들은 주변 문맥 정보를 반영하고, 딥러닝 모델로는 양방향 LSTM을 사용하여 언어 문법 구조의 복잡한 측면도 잡아낼 수 있습니다. 그 결과 적절한 확률값을 예측할 수 있고 이를 이용해 감성 분석을 시행하였습니다.

*감성 분석이란 문장을 형태소 단위로 분리하여 문장의 긍정 및 부정의 비율을 예측하는 기법입니다. 문장의 마지막 단어들에 높은 가중치를 매기는 LSTM 모델이 아닌 초반에 나온 단어들도 가중치를 높게 두어 예측하는 모델인 양방향 LSTM을 사용했습니다. 또한 15만 여개의 네이버 리뷰 데이터로 학습시켜 예측 정확도를 높였습니다.  

참고 문헌) Bidirectional Recurrent Neural Networks, Bidirectional LSTM Networks for Improved Phoneme Classification and Recognition

 

 

2. 리뷰 트렌드

“여기가 인기 식당이라는데 난 잘 모르겠는걸?”

오래전부터 오픈한 식당들은 당연히 리뷰 수도 많기에, 리뷰 데이터에서는 신규 식당보다 유리한 위치를 선점할 수 있습니다. 또한 예전엔 맛있었지만, 최근엔 맛이 변하여 예전만 못하거나 혹은 예전보다 훨씬 업그레이드된 식당들도 있을 수 있습니다. SPH 데이터 컨설팅팀에서는 여의도에서 ‘최근’에 핫한 식당들과 다소 인기가 떨어진 식당들을 보여드리려고 합니다.

최근 3개월간 식당을 다녀간 고객들의 후기가 좋아졌거나 나빠졌다는 것을 판가름할 수 있는 플랫폼은 지금까지 없었습니다. SPH 데이터 컨설팅팀에서는 최근 3개월간 리뷰의 평균 변화량을 다각적으로 분석하였습니다. 한식에선 정인멱옥, 일식에선 카레오, 양식에선 그리너리 샐러드, 중식의 경우 서궁, 카페는 아이엠베이글과 패트릭스와플이 최근 3개월간 사랑을 받고 있는 곳이네요. 그에 비해 진주집, 아루히, 테이스트링, 오헨과 뷔페 업종은 이전보다 고객의 발길이 뜸해졌습니다.

 

리뷰 트렌드에서 높은 수치는 해당 식당이 기존에 방문하던 고객 수와 비교했을 때, 더 많은 고객이 방문했거나, 평가가 이전보다 상대적으로 좋아졌다는 것을 의미합니다. 반대로 특정 식당의 수치가 낮을 경우, 해당 식당은 이전보다 고객의 방문이 뜸하거나 종전의 평가에 비해 최근 고객들의 평가가 낮아진 곳을 의미합니다.

가령 특정 식당의 금월 리뷰 수가 100개라고 합시다. 만약 전월 리뷰 수가 10개라면 해당 식당의 트렌드 지수는 높은 값을 띌 가능성이 높습니다. 반면, 전월 리뷰 수가 1000개였다면 오히려 감소하는 추세를 나타내기에 트렌드 지수는 낮은 수치를 기록할 것입니다. 물론 점수도 같은 맥락으로 파악해봐야 정확하게 알 수 있겠지만요. 리뷰 트렌드를 기준으로 최근에 뜨고 있는 식당을 방문해보는 것도 좋을 것 같습니다. 

 

출처: https://www.chosun.com/site/data/html_dir/2020/08/21/2020082100322.html

다만, 리뷰 트랜드의 경우 최근 코로나 바이러스의 영향이 반영될 수밖에 없습니다. 가령, 공간이 협소하거나, 다수의 사람들이 한 곳에 모일 수 밖에 없는 뷔페 같은 경우가 좋은 예입니다. 이런 곳의 경우 코로나의 여파로 인해 입은 피해가 위 수치에도 드러날 수 있습니다. 앞선 그래프에서도 보실 수 있듯이, 뷔페의 경우 트랜드가 음의 점수를 나타내고 있습니다. 또한, 일식에서 아루히는 리뷰지수와는 반대로 상당히 낮은 리뷰 트랜드 지수를 보입니다. 이 또한 코로나의 영향이라고 추측할 수 있습니다. 추측건대, 아래 사진에서 보듯이 아루히는 사람 사이의 공간이 넓지 않지만 항시 분비는 장소이기에, 최근 고객들에게는 다소 위험한 장소로 인식되었을 수도 있습니다.

 

아루히 네이버예약 페이지 사진

 

3. 가성비 순위  

 

후기 만큼 중요하게 생각하는 부분은 ‘가격’입니다. 여의도 직장인들에게 점심값은 ‘소소익선’입니다. 하지만 열심히 일한 직장인들의 소중한 한 끼기 때문에, 저희는 맛도 잡고 가격도 잡은 식당을 카테고리별로 소개해 드리려고 합니다. 가성비 순위를 보여드리기 전, 데이터를 통해 어떻게 가성비 순위를 산출하게 되었는지에 대한 과정을 보여드리겠습니다. 

 

식당의 가성비는 맛 대비 가격의 저렴함과 비쌈을 의미합니다. 개개인의 차이에 따라 맛의 평가가 달라지지만, SPH 데이터 컨설팅팀에서는 대중의 입맛을 대변하는 ‘리뷰 지수’, 해당 업종의 평균가격, 해당 식당의 평균 가격을 조합하여 새로운 가성비를 정의하고 이에 따른 순위 산출했습니다. 업종별로 가격대의 기준이 다를 수 있음을 인지하여 업종별 가격 차이를 중요 변수로 고려하였습니다. 

 

가성비 산출 프로세스에 따른 가성비 순위 결과  

 

가성비 1위는 각 카테고리별로 진주집, 카레오, 바스버거, 서궁, 그레이에스프레소입니다. 카레오는 일식이지만 주메뉴가 스시가 아니어서 가격이 상대적으로 낮게 측정된 면이 있습니다. 이 점을 감안하면 일식에선, 스시집인 아루히가 가성비가 매우 좋은 것을 확인할 수 있습니다.

 

 

4. 지도로 한 번에 보는 여의도 베스트 식당 현황

앞서 분석한 여의도 맛집의 리뷰 지수, 리뷰 트렌드, 가성비 순위를 구글 my maps에 나타내어 보았습니다. 식당 아이콘을 클릭하시면 식당별 점수와 순위 정보가 나옵니다.


5. 후기

 


Written and Analyzed by 

SPH 데이터 컨설팅 관련 컨설팅 문의는 여기를 클릭해주시기 바랍니다. 

머신러닝 지도학습을 통해서 꼽아본 최적의 스타벅스 DT 장소!?

2부-2: 머신러닝을 통한 스타벅스 DT 최적의 입지 점수는?

인문사회 데이터기반 스타벅스 DT 입지조건 분석(featuring by AI)

지금까지 최적의 입지 변수를 가진 스타벅스 DT 장소들을 찾아보았습니다. 제 2의 최적의 스타벅스 DT점이 되기 위해 ‘어디에’ 스타벅스 DT를 입점시키는 게 좋을 지 찾는 과정의 마지막 단계에 이르렀습니다.  

저희 SPH 데이터 컨설팅팀에서는 다양한 데이터로부터 학습과정에 필요한 변수들을 추출하고, 이를 토대로 지도 학습 시행했습니다. 학습 결과 나온 모델로 ‘입지 점수’를 예측할 수 있습니다. 지도 학습 결과 산출된 ‘입지 점수’는 해당 지점이 스타벅스 DT 입점에 얼마나 최적화된 장소인지를 수치화한 결과 입니다.

A. [머신러닝 지도 학습]이란? 

  머신러닝 지도 학습은 비지도 학습과 달리 명확하게 학습해야 할 정답(혹은 target, 종속변수)이 있습니다. 지도 학습에서는 유동인구, 아파트 세대수, 대기업 정보 등의 feature 데이터(독립변수) 들만 주어지는 게 아닌, 해당 데이터의 정답이 학습시 함께 주어집니다. 이렇게 학습된 모델은 feature를 입력으로 받은뒤, 입지 점수를 출력하는 함수라고 할 수 있습니다. 

  모델의 성능을 좌우하는 건 양질의 데이터이므로, feature 뿐만 아니라 target 도 매우 중요합니다. 이런 점에서 스타벅스 DT 입지 점수와 가장 관련 깊은 target은 스타벅스 DT의 매출정보가 아닐까 싶습니다.

* 하지만 매출 데이터를 얻을 방법이 없었기에, 저희 나름의 알고리즘을 바탕으로 입지 점수를 선정하고 이를 target으로 하여 모델링을 진행했습니다. 

B. 분류화 & 그룹별 머신러닝 기반 분석

SPH 데이터 컨설팅팀은 정확한 머신러닝 알고리즘을 구축하기 위해 스타벅스 DT점들을 총 4분류로 나누었습니다. 전체 스타벅스 DT점들을 하나의 알고리즘으로 분석하는 것보다, 분류 후에 각 그룹별로 예측한 입지 점수가 더 높은 정확도를 나타내는 것을 확인하였습니다. 그 과정과 결과를 설명드리려 합니다.  

관광지 그룹으로 분류된 스타벅스 DT점들은 강변, 드라이브 코스, 관광지 근처인 특징들을 가진 DT점들을 분류한 그룹입니다. 또한 실질적으로 ‘유명 관광지’ 근처가 아니더라도 리버사이드팔당DT점과 같이 휴식을 목적으로 찾아오는 지점들을 간추려내었습니다. 이 지점들이 가지는 특징과 입지 변수를 토대로 스타벅스 DT의 입지와 관련하여 예측 분석을 해보았습니다. 예측 분석 후 가장 크게 영향을 미치는 변수들 TOP10을 소개드리려고 합니다.    

관광 그룹으로 분류된 스타벅스 리버사이드 팔당점 DTR 전경

1) 머신러닝 모델링 과정 및 결과

– 스타벅스 DT점의 Target 변수?

  지도학습을 통해 모델이 완성된다면, 이 모델을 통해 스타벅스 DT 입점 전에 내가 선택한 장소가 얼마만큼의 매출을 낼 수 있는 지를 예측할 수 있습니다.

  앞서 말씀드린바와 같이, 머신러닝 지도학습에서는 target 변수가 중요합니다. Target 변수가 무엇일까요? 스타벅스 DT 입지 분석에서쓰인 target 변수는 스타벅스 DT를 입점하기에 적합한 장소인지 아닌지를 구분하기 위해서 쓰이는 변수입니다. 좋은 입점 장소를 선택하는 데 있어서 중요한 변수는 각 DT점의 ‘매출’ 및 ‘토지의 가치’등이 있습니다. 

여기서 저희가 결정하기 위해 시도했던 변수들은 1.감성 지수가 포함된 Label, 2. 6개월 네이버 영수증 개수, 3. 공시지가 3년치 상승률, 4. 공시지가 3년치 평균입니다. 네 변수 중 다른 독립 변수들과 상관 관계 수치가 가장 높고 많은 독립 변수가 포함된 변수를 target 변수로 선택했습니다.

여기서 저희가 관광지에 스타벅스DT를 입점하기에 적합한 장소인지 아닌지를 선택, 구분하기 위한 값으로 선택한 중요 변수는 ‘공시지가 3년치 평균’입니다. 즉 53개의 영향을 미치는 입지 변수들이 평균 66% 정도 ‘공시지가 3년치 평균’과 상관관계가 있다고 할 수 있습니다. 

입점 예정인 장소를 머신러닝을 통해 예측하였을 때 공시지가 3년치 평균이 높게 나온다면 그 장소는 여러 독립 변수에 근거하여, 스타벅스DT점으로 높은 매출을 전망할 수 있을 것입니다.

2) 관광지에서 스타벅스 DT 매출 상승을 위한 중요 변수는?

머신러닝 지도 학습 결과, 왼쪽 Y축의 값은 관광지로 분류된 스타벅스DT점들이 가지는 중요 변수들을 나타내었습니다. X축은 입점 장소의 공시지가 상승, 하락에 어떠한 영향을 가지는 지, 변수의 중요도를 뜻합니다. (중요 변수들 중 10개 발췌)

예를 들어, ‘수요일’ 유동인구는 관광지에서 스타벅스 DT를 입점하는 데 영향을 미치는 변수들 중 가장 중요한 변수라고 볼 수 있습니다. 특히, 수요일날 유동 인구 수가 많다면 그 관광지로 분류된 스타벅스DT점은 매출이 높을 가능성이 큽니다. 

반대로, 수 km내 주요기업 수는 관광지에 스타벅스DT를 입점하기에는 영향력이 매우 적은 결과값을 가진다고 볼 수있습니다. 

이러한 변수의 부정, 긍정적인 관계와 중요도의 높고 낮음을 통해 관광지에 스타벅스DT를 입점하는 데 있어서 입점 장소의 변수값의 중요성을 알 수 있습니다.

**아래는 이러한 머신러닝 알고리즘을 구축하는 과정에 산출한 정확도와 모델 선택 차트입니다. 첫번째 그래프를 통해서 모델링 오차가 mae(평균 절대값 오차) 기준 0.04 정도로 예측을 잘 하는 알고리즘이란 것을 확인할 수 있습니다. 또한 두번째 차트에서 보이는 것처럼, 최적의 성능을 산출하기 위해 10가지 이상의 모델을 학습시키고 이중, 가장 최적화된 StepwiseLinear 모델을 선택했습니다.

**아래는 머신러닝 모델의 잔차의 분포를 나타냅니다. 잔차의 분포가 정규분포를 따름을 확인할 수 있습니다.

 

IC 근처로 분리된 스타벅스 DT점들은 대략 80여개로, IC 진입로에 위치하여 있거나 고속도로 근처 및 지리적으로 아파트 쪽을 입구로 향하지 않고 고속도로쪽으로 출입구가 향한 지점들입니다. 또한 정확히 IC근처가 아닐지라도 이 지점들이 가지는 특징들은 주변 아파트 및 거주민들을 위한 고객층이 아닌, 고속도로로 진입하여 다른 지역으로 이동하는 고객층을 위해 위치한 스타벅스 DT점입니다.  

IC근처 그룹으로 분리된 스타벅스 수원IC DT 전경

1) 머신러닝 모델링 과정 및 결과

위의 관광지로 분류된 스타벅스DT 모델 알고리즘 프로세스와 같이 IC근처로 분류된 스타벅스 DT도 Target 변수 선택이 중요한 단계입니다.

각각의 종속변수에 대해 feature들과의 상관관계를 분석했습니다. 위 차트의 핵심적인 수치를 요약한 그래프는 아래와 같습니다.

  위 그래프에서 볼 수 있듯이, 공시지가 3년 평균 결과의 feature개수와 값이 가장 높습니다. 49개의 다른 입지 변수들이 공시지가 3년 평균값에 평균적으로 44% 영향을 미칩니다. 이를 통해 종속변수를 선택하고 모델링을 진행했습니다.

2) IC 근처에서 스타벅스 DT 입점시 매출 상승을 위한 중요 변수는?

  위의 그래프는 IC 근처로 분류된 스타벅스DT점의 매출 상승에 영향을 미치는 요인이라고 볼 수 있는 변수들과 중요도입니다. IC근처에 주요기업 개수가 많을 수록 스타벅스DT 입점에 유리한 변수로 작용할 수 있습니다. 또한, 인근에 스타벅스가 존재한다면 오히려 매출 상승에 좋은 영향을 줄 수 있다는 결과를 가지고 있습니다. 주말에 교통량이 많을 수록 IC근처에 스타벅스 DT 입점이 긍정적인 요인이 될 수 있습니다. 

**최적의 성능을 산출하기 위해 가장 최적화된 AdaBoostRegressor 모델을 선택했습니다.

사업체로 분류된 스타벅스 DT점은 주변에 기업 캠퍼스, 산업단지 등이 위치해있어, 회사원들이 주요 고객층으로 자리한 DT점입니다. 대략 40여개의 스타벅스 DT가 사업체 그룹으로 분류되어있으며 이 그룹은 다른 분류 (관광, IC근처, 아파트)와는 다른 입점 변수가 크게 작용할 것으로 예상하고 있습니다.

사업체 그룹으로 분류된 스타벅스 광주신세계DT 전경

1) 머신러닝 모델링 과정 및 결과

사업체 근처로 분류된 스타벅스DT가 최적의 입점 장소인지 아닌지를 분류해내는 종속 변수를 선택하는 데 있어서 위의 프로세스와 같이 네가지의 변수들을 이용했습니다. 아래 그래프를 통해 53개의 다른 입점 변수들이 공시지가 3년 평균 결과값에 평균적으로 51% 영향을 미친다고 나옵니다.

다른 여타의 변수들보다 높은 변수 상관율과 많은 변수들이 영향을 끼치기 때문에 ‘공시지가 3년치 평균’을 사업체 근처 스타벅스DT 입점의 종속 변수로 사용했습니다.

2) 사업체 근처에서 스타벅스 DT 입점시 매출 상승을 위한 중요 변수는?

 사업체 근처에 스타벅스DT 입점시 중요한 변수는, 머신러닝 지도학습 결과 나타난 위의 변수들입니다. (중요 변수 10개만 발췌)  

이를 통해 사업체 근처 스타벅스 DT의 경우, 교통량이 많고 아파트 세대수가 많으며, 인근에 스타벅스가 위치해 있을수록 매출 성장이 높은 곳이라고 분석할 수 있습니다.

앞서 비지도 학습에서 1군집으로 분류된 ‘스타벅스 광주신세계DT’점은 위의 변수들을 어떻게 포함되고 있을 까요?

스타벅스 광주신세계DT점 사업체 근처로 분류된 스타벅스DT점 평균
동단위_아파트_세대수 10765세대 5123세대
교통량 점수 2.5 1.8
인근_스타벅스_거리 1.2km  1.9km
교통량_점수_평일 3 1.8
M_25 9803명 1693명
아파트_매매가_상한 3.3억 3.3억
06~09 28850명 7121명
M_59 13669명 3780명
M_34 13704명 3172명
M_60 31442명 6636명

위의 표와 차트는 머신 러닝 지도학습에서 나타난 중요 변수들에 따른 머신 러닝 비지도 학습에서 1군집으로 분류된 광주 신세계DT점 입지 변수 값의 비교입니다. 아파트 매매가 상한 변수를 제외한 모든 변수에서 평균적으로 스타벅스DT점들보다 굉장히 높은 변수 값을 가지고 있습니다. 이를 통해 비지도 학습에서 나온 1군집 사업체는 머신 러닝 지도학습에서 학습한 결과처럼 중요 변수에서 높은 값을 포함한다고 볼 수 있습니다. 

**최적의 성능을 산출하기 위해 가장 최적화된 AdaBoostRegressor 모델을 선택했습니다.

아파트 그룹으로 분류된 스타벅스 DT점은 총 90여개로 가장 많은 모집단을 포함하고 있습니다. 이 그룹은 주변에 IC근처 및 고속도로 진입로가 없으며, 유명 관광지가 위치하지않고, 크고 작은 산업체가 존재하지 않는 곳입니다. 반면에 주변에 아파트 및 거주 주택들이 많은 DT 지점입니다.

아파트 그룹으로 분류된 스타벅스 송파나루역DT 전경

1) 머신러닝 모델링 과정 및 결과

아파트 근처 그룹으로 분류된 스타벅스DT가 최적의 입점 장소인지를 분류해내는 종속 변수를 선택하는 데 있어서 위의 프로세스와 같이 네가지의 변수들을 이용했습니다.

다른 그룹과 같이 아파트 그룹도 공시지가와 관련된 종속 변수가 상관관계가 높았습니다. 반면, 각 종속변수에 따른 모델링 성능의 경우 ‘6개월 네이버 영수증 개수’를 종속 변수로 선택한 모델이 가장 높았기에, 종속 변수로 공시지가를 선택하지 않았습니다. 아마 아파트 일대란 그룹 자체가 이미 공시지가가 평균적으로 높기에, 변수간의 관계를 추정하는데 어려움이 있을것으로 예상됩니다.

아래 그래프를 통해 9개의 다른 입점 변수들이 네이버 영수증 개수 결과값에 평균적으로 26% 영향을 미침을 알 수 있습니다.

2) 아파트 근처에서 스타벅스 DT 입점시 매출 상승을 위한 중요 변수는?

위의 표와 차트는 비지도 학습에서 1군집으로 분류된 송파나루역, 광주상무, 온천장역 DT점과 지도학습에서 스타벅스DT 입점의 중요 변수로 선정된 TOP10과의 변수 값 비교입니다. 세 곳 모두 대부분 아파트로 분류된 DT점들의 평균 값보다 상위 값을 보유한다고 나옵니다. 특히나 유동 인구에서는 평균값보다 크게 상회한다고 볼 수 있으며 아파트 거리도 상대적으로 가깝다고 볼 수 있습니다.

**최적의 성능을 산출하기 위해 가장 최적화된 LinearSVR 모델을 선택했습니다.

 

앞서 학습한 모델은 해당 지역의 유동인구, 교통량, 아파트 세대수, 주요기업 정보 등을 토대로 공시지가에 기반한 입지점수를 예측하려고 합니다. 이제 이 모델을 이용하여 입지조건을 분석한 결과를 말씀드릴까 합니다.

입점시 높은 매출을 나타낼 것으로 예상되는 장소를 선정하고, 해당 지역의 변수 데이터를 모아 머신러닝 모델에 기반한 입지점수를 산출했습니다. 편의상 위 지역을 미래 전주만성 DT라고 명하겠습니다.

미래 전주만성DT의 위치

위 지역을 좋은 입지 후보로 선정한 이유는 아래와 같습니다.

  1. 국민연금공단 밀접 및 주변에 산업단지들 다수 분포 – 사업체 인근으로 분류 가능
  2. 호남고속도로 나들목 근처 위치 – IC 인근으로 분류 가능

위 지점은 사업체 인근 혹은 IC 인근 둘 모두로 분류될 수 있게, 각각의 모델로 예측 분석을 시도했습니다. 각 분류별 분포를 보면 예측값은 평균점수 정도로 높지 않아 보입니다. 하지만 전주시라는 지역 특성을 고려할 경우 위 예측값은 다른 양상을 나타낼 수 있습니다. 이를 확인하기위해, 전주에 위치한 DT점의 평균 입지점수와 미래 전주만성DT점의 입지점수를 비교해볼까 합니다. 

전주에는 ‘전주덕진광장DT’, ‘전주백제대로DT’, ‘전주송천DT’, ‘전주평화DT’, ‘전주효자DT’ 총 5 군데의 DT가 있습니다. 5군데 DT의 공시지가 평균값을 산출하고, 모델 예측값과 비교했습니다.

두 가지 모델의 예측 결과를 토대로 산출한, 미래 전주만성 DT의 입지점수 예측 범위와 앞서 소개한 5군데 전주 DT점의 평균값을 시각화했습니다. 입지점수 범위의 최솟값은 사업체용 모델의 예측값이며, 최댓값은 IC용 모델의 예측값입니다. 예측 범위는 전주지역내 스타벅스 DT의 공시지가 평균값 기준, 83% ~ 130% 범위를 나타냅니다. 범위 양 끝 값을 모두 고려할 경우, 전주만성 DT의 입지점수는 전주지역내에 있는 스타벅스DT 평균에 비해 성장가능성이 더 높습니다. 

그렇다면 전주만성DT로 선정한 위치의 현재 공시지가 입지점수를 기준으로 미래의 예측값을 비교하면 어떨까요?

현재 점수와 예측 결과 비교

현재 미래 전주만성 DT의 입지점수와 비교하면, IC 분류 모델과 사업체 분류 모델의 예측치는 각각 295%, 189%로 모두 높은 성장을 예측했습니다. 이는 평균적으로 242% 가량의 성장 가능성을 의미하기에, 전주만성에 스타벅스 DT를 입지하는 것은 괜찮은 투자로 보여집니다.

  저희 SPH 데이터 컨설팅팀은 스타벅스 DT점의 유동 인구, 교통량, 공시지가 및 스타벅스 DT 입점에 영향을 미칠 수 있는 여러 주변 변수를 머신러닝에 근거한 데이터 분석을 통해 과정 및 결과를 도출해냈습니다. 

  입지 전략 분석에서 중요한 변수로 꼽힐 수 있는 매출 데이터등의 부재로 예측 결과값이 상이할 수 있습니다. 하지만, 추가적인 내/외부 데이터 소스가 공급될 경우 더 높은 신뢰성을 띈 모델을 구축할 수 있고 한층 더 깊이 있는 컨설팅이 가능할것으로 판단됩니다.

  또한, 이번 입지분석 과정을 통해서 저희 SPH에서 구축한 머신러닝에 기반한 데이터 분석 파이프라인은 추후 다양한 산업 분야에서 활용될 수 있을 것으로 예상합니다. 스타벅스DT 입지 분석 뿐만아니라, 다양한 프랜차이즈 (다이소, 올리브영 등)와 호텔 업계(신라스테이, 롯데시티 호텔 등)의 입지조건에 최적화된 입지 선정을 할 수 있는 알고리즘을 구축할 수 있는 가능성을 확인했습니다.


김도환 데이터 컨설팅 전임 (dhkim@sphinfo.co.kr)

이소린 데이터 컨설팅 전임 (sllee@sphinfo.co.kr)

 

머신러닝 비지도학습으로 찾은 최적의 스타벅스 DT, TOP 4 !

2부-1: 머신러닝을 통한 스타벅스 DT 최적의 입지 점수는?

인문사회 데이터기반 스타벅스 DT 입지조건 분석(featuring by AI)

 

스타벅스 DT 입점 점수를 분석하고 결정하기까지 여러 알고리즘과 모델링과 같은 분석 기법이 사용됩니다. 데이터로 넘쳐나는 세상에서 중요한 변수와 중요하지 않은 변수를 솎아내는 것, 그리고 그 데이터들을 하나로 ‘정의’(Labeling)하는 것이 가장 관건입니다.

저희 SPH 데이터 컨설팅팀은 스타벅스 DT점 입점을 위한 입지 점수를 매기기 위해 머신러닝 지도 학습 및 비지도 학습을 통해 여러 변수들의 특징과 각 DT점이 가지고 있는 특징을 결합하여 의미있는 인사이트를 얻기 위한 과정과 결과를 보여드리려고 합니다.

 

A. [머신러닝 비지도 학습]이란? 

머신러닝 비지도 학습은 인간이 눈으로 결정짓지 못하는 것, 혹은 확실한 데이터가 없는 상황에서 다른 변수들이 포함된 빅데이터를 통해 패턴을 학습하여 새로운 데이터에게 학습된 패턴을 기반하여 분석하는 기법입니다. 예를들면 A점의 스타벅스DT가 전망이 좋을 지는 아무도 모릅니다. 하지만 모든 DT점들이 가진 변수들을 취합, 분석하여 비지도 학습을 통해 A점의 스타벅스 DT의 입지 점수를 매길 수 있습니다. 또한 변수의 중요도를 통해서 새롭게 입점을 하고 싶은 곳을 분석하여 학습된 데이터들을 통해 해당 장소의 입지 점수를 예측해 볼 수 있습니다.

군집 분석 K Means 알고리즘은 250여개의 스타벅스DT를 입지 변수 데이터에 근거하여 다섯개의 군집으로 제시했습니다. 스타벅스 DT점 입지 점수를 내는 데 갑자기 군집 분석을 적용한 이유는 무엇일까요? 같은 스타벅스 DT점이라도 고객들의 수요층, 방문 목적, 방문 시간대, 유동 인구 수, 주변 아파트 유무, 관광지 유무등이 큰 변수가 될 수 있기 때문입니다. 

예를들어 X점의 스타벅스 DT는 관광 목적으로 입점이 되는 곳이 있으며 Y점은 출퇴근길 고객들을 위한 입점이 목표가 될 수 있기 때문에 모든 DT점들을 같은 선 상에서 모델링을 하는 것은 정확한 점수를 매기는 데 어려운 일이 될 수 있습니다. 그렇기 때문에 군집화를 통해 더 세분화하여 각각의 군집들이 가진 특징을 살펴보는 단계를 가질 것 입니다.

B. 머신러닝이 분류한 스타벅스DT 군집은?

 

“머신러닝은 스타벅스DT를 5개의 군집으로 자동 분류하였다!”

Kmeans 군집화 알고리즘은 주어진 데이터를 K개의 군집으로 묶는 알고리즘으로, 각 군집과 거리 차이의 분산을 최소화하는 방식으로 작동하는 비지도 학습 기법입니다. 같은 군집의 경우 서로 비슷한 특징을 지니고 있으며, 서로 다른 군집의 데이터들은 이질적인 특징을 지니게 됩니다. 아래 표에서는 250여개의 스타벅스 DT가 5개로 잘 나뉘어져 있습니다. 하지만 군집 결과만 봐서는 왜 1군집이 4개의 DT점이 들어가 있고 4군집이 가장 많은 수의 DT점들이 들어가있는지 설명이 되지 않습니다. 이제, 이 군집을 시작으로 각 군집의 변수에 대한 특징을 살펴볼 것입니다.

C. 5가지 각 군집의 특성은?

1. 교통량 점수

교통량은 굉장히 중요한 변수 중 하나입니다. 교통량이 많다는 것은 잠재 고객이 될 수 있는 유동 인구가 많다는 의미입니다. 빠르게 흘러갈 수 있는 고객들이 ‘내리지 않고 커피를 마실 수 있는’ 플랫폼에 최적화되어 드라이브 스루를 이용하는 최적의 고객이 될 수 있기에, 이 변수를 살펴보겠습니다.

위의 군집별 교통량 점수는 주말, 아침, 점심, 저녁등 여러 분류로 스타벅스 DT를 통과하는 바로 앞 도로가 얼마나 붐비는 지에 대한 수치입니다. Y축의 점수가 높을 수록 교통량이 많은 곳이며 교통량이 적은 곳일 수록 평균 교통량 점수가 낮다고 보실 수 있습니다. 스타벅스 DT 교통량에서 나타난 점수로는 1번 군집이 가장 운전자들이 붐비는 곳으로 나타났으며 5번 군집으로 내려 갈수록 낮은 교통량을 보입니다. 즉, 1번 군집의 스타벅스DT점의 앞 도로는 다른 DT점들에 비해 굉장히 도로 교통량이 많다고 볼 수 있습니다.

2. 관광지 거리 및 리뷰 수

스타벅스 DT는 출퇴근하는 직장인에게만 매력적인 장소가 아닙니다. 관광지 주변의 DT는 일상에 지친 사람들에게 색다른 휴식 공간을 제공하기도 합니다. 특히, 경주 보문로 DT는 스타벅스 1호점으로, 인근 보문로가 경주 관광지로 유명한 곳이죠. 스타벅스가 이 곳을 시작으로 드라이브스루의 포문을 열었던 만큼 관광지는 핵심적인 입지조건중 하나입니다. 이와 관련된 변수인 관광지의 리뷰수와 거리를 분석해 보았습니다.

대한민국에 이름있는 관광지와 스타벅스 DT간의 거리, 그리고 관광지의 리뷰수를 통해 군집들의 차이가 있는 것을 볼 수 있습니다. 예를 들어, 1군집은 관광지 리뷰수는 굉장히 많고, 관광지와의 거리는 가장 가깝기 때문에 굉장히 유명한 관광지 주변의 스타벅스 DT일 수도 있겠다고 추측할 수 있습니다. 반면, 4군집은 관광지 리뷰수는 적고, 관광지와의 거리도 상대적으로 멀기 때문에 스타벅스 DT가 아파트 및 IC 근처의 입점 지역이라 추정할 수 있습니다.

3. 유동 인구 수

앞서 소개한 교통량도 중요한 변수이지만, 교통량은 스타벅스 DT지점에서 운전자를 포함한 전체 유동 인구를 담기에는 한계가 있습니다. 이를 보완할 수 있는 데이터가 유동 인구 수로, 얼마나 많은 사람들이 이동하고 움직이는 지를 나타냅니다. 아래 그래프를 통해 실제 스타벅스 DT지점 기준, 수 백 미터 반경에서 군집별, 요일별 유동인구 수를 나타내 보았습니다.

X축은 군집을 의미하며 Y축은 평균 유동인구 수를 의미합니다. Stack bar 그래프로 표시해봤을 때 1번 군집의 스타벅스DT의 반경 수 백M 이내의 유동 인구수는 어느 요일을 비교해서도 굉장히 많은 유동 인구수를 보입니다. 5번 군집의 금요일 유동 인구수는 2만6천여명으로 5번 군집보다 1번 군집이 10배 이상인 30만명의 유동인구 수를 나타내고 있습니다.

시간에 따른 그래프에서도 1군집은 5군집과 확연히 차이를 보이고 있습니다. 1군집의 스타벅스 DT는, 가장 붐비는 시간대인 15시~18시 사이에 평균 5만4천여명의 유동 인구가 포착되었습니다. 반면, 5군집의 동시간대 유동 인구는 5천여명으로, 1군집의 유동 인구는 5군집의 10배 이상입니다.  즉 1군집이 5군집에비해 10배 이상의 잠재 고객이 있다고 볼 수 있습니다.

4. 리뷰 점수

1부 스타벅스 입지조건 분석(https://www.sphinfo.com/starbucksdt)에서 소개드린 리뷰 점수도 하나의 히든 변수로 볼 수 있습니다. 서비스, 친절, 드라이브스루 이용의 편리함 등이 고객의 입장을 가장 잘 전달한 ‘입소문’의 수치화된 데이터라고 본다면, 이를 통해 어느 군집이 어떠한 ‘평판’을 지니고 있는 지 확인할 수 있습니다.

감성 분석을 통해 산출한 리뷰 점수를 통해 고객의 만족도를 추정할 수 있습니다. 리뷰 점수가 높다면, 고객의 만족도가 높기에 현재의 매출이 괄목할 만한 수치가 아니더라도 미래의 매출은 상승할 여지가 있습니다. 반대로, 어떤 DT점의 경우 현재는 매출이 상당히 높지만 리뷰 점수가 낮아, 매출의 상승세를 유지할 가능성은 낮아 보입니다.

1부에서 소개드린 감성 리뷰 분석을 통한 상위/하위 스타벅스 DT점

위의 스타벅스 DT점 리뷰를 통해, 비지도 학습에서 나누어진 군집들의 리뷰 점수가 어떻게 분포되어 있는 지 확인해보겠습니다.

아래의 막대 그래프를 보시면 1군집이 평균 0.33807점으로 압도적으로 높은 리뷰 점수를 보유하고 있습니다. 반면 3군집은 상대적으로 낮은 0.31203의 리뷰 점수를 나타내고 있습니다. 즉 1군집의 DT점들은 상대적으로 미래의 매출 지표에도 긍정적인 상승세를 보일 것으로 예상됩니다.

5. 네이버 영수증 리뷰 

네이버 영수증 리뷰는 고객들이 실제 스타벅스DT점에 방문하여 구매 후 리뷰를 남기는 형식의 리뷰 플랫폼입니다.

다른 포털 사이트의 리뷰 서비스와 다르게 실제 ‘구매’가 이루어져야 글을 작성할 수 있게 한다는 점에서 매출 짐작에 신뢰성이 높다고 판단하여 모은 데이터입니다. ‘매출’을 짐작할 수 있는 변수로 최근 3개월 간 해당 스타벅스DT를 다녀간 고객들이 남긴 영수증 리뷰와 갯수를 사용하였습니다. 전체 네이버 영수증 리뷰 갯수와 점수 데이터를 사용하지 않은것은 각 지점의 오픈일에 따른 오차가 없도록 하기 위함입니다.

위의 그래프처럼 1군집이 다른 변수들의 결과처럼 1등은 아니지만, 평균 3개월 영수증 개수 부문에서 79개로 상위권을 차지하고 있습니다. 이로보아, 1군집의 현재 매출은 다른 스타벅스 DT에 비해 상대적으로 높을 것으로 판단됩니다.

또한 1군집은 영수증 개수 값이 79개로 같은 3군집과 비교했을때, 리뷰 점수도 높은 점수를 받았습니다. 1군집의 경우, 매출과 고객들의 만족도 둘 다 모두 높다 할 수 있습니다.

1군집은 대부분의 변수들에서 좋은 수치를 지니고 있기 때문에, 굉장히 ‘탐낼만한’ 장소의 DT점임은 분명합니다. Kmeans 군집 분석은 hierarchy 분석이 아니기때문에 특징을 나타낼뿐 어느 군집이 열등하고 우등한지 나타내는 척도는 아닙니다. 하지만 군집별로 변수를 분석하여, 우리가 가지는 기대치에  부합하거나 더 높은 수치를 가지고 있는 DT점들이 모인 곳이 1군집인 것을 확인했습니다. 1군집 중 DT점은 송파나루역, 광주신세계, 온천장역 DT등으로 서울에만 집중되어 있지 않고 고루 분포되어 있음을 알 수 있습니다.

6. 3년 간 공시지가 상승률 및 평균 

공시지가란 건설교통부에서 조사, 평가하여 공시한 토지의 단위 면적당 가격입니다. 물론 부동산을 직접 사고 파는 실거래가와는 다르지만 정부가 세금을 부과할 때 주로 사용하기 때문에 스타벅스 DT가 들어선 장소의 값어치가 얼마나 올랐는 지 가늠해 볼 수 있는 지표가 될 수 있습니다.

여기서도 1군집이 3년 동안 가장 높은 공시지가 상승률을 보였습니다. 약 136%정도의 상승률을 보이며, 5군집의 24% 상승률의 약 6배이기 때문에 굉장한 차이라고 볼 수 있습니다. 또한 1군집은 평균 단위 면적당 976만원의 공시지가를 보유하며 320만원의 공시지가를 보유한 5군집보다 3배 이상의 가격을 보유한다고 볼 수 있습니다.

위의 군집 분석을 통해, 스타벅스 DT입지조건과 관련된 다양한 변수들에 대한 이해를 넓힐 수 있었습니다. 하지만 비지도학습으로 실제 입지점수를 예측하는데에는 한계가 있습니다. 비지도학습과 달리 지도학습의 경우 target 데이터를 필요로 한다는 단점이 있지만, 적합한 모델이 있을 경우 보다 높은 정확도로 예측이 가능합니다. 다음 포스팅에서 소개드릴 스타벅스DT 입지 점수 예측 분석은 머신러닝 지도학습을 이용한 결과입니다.

 

1부: 스타벅스 DT 소셜 데이터를 이용한 감성분석 바로가기

3부: 머신러닝 지도학습을 이용한 스타벅스 DT 입지점수예측 바로가기

 

김도환 데이터 컨설팅 전임 (dhkim@sphinfo.co.kr)

이소린 데이터 컨설팅 전임 (sllee@sphinfo.co.kr)

 

SPH는 CARTO, Google Maps, SuperMap 등 다양한 케이스에 적용될 수 있는 다채로운 제품군을 보유하고 있으며 고객의 사례에 꼭 맞는 무료 세미나 및 개별 컨설팅을 제공하고 있습니다. 각 케이스에 맞춰 더욱 자세한 이야기를 나누고 싶으시다면 여기에서 문의 주시길 바라며, SPH에서 발행하는 GIS/로케이션 인텔리전스 관련 최신 소식을 받아보고 싶으신 분들은 페이스북 페이지 또는 뉴스레터를 구독해 주시길 바랍니다. 감사합니다.

유동인구 데이터를 이용한 홍대 vs 여의도 요새 어떤가요 !?!?

 

영등포구에서 여의도 인근 지역은 직장인들이 많은 곳 중 하나입니다. 한편, 마포구 내 홍대(서교동), 연남동, 망원동 등은 최근 들어선 소위 ‘힙한 지역’이라고 불리는 곳이 많죠. 두 지역을 비교해 보면, 사회적으로 마포구 일대가 보다 트렌디한 것을 우리는 ‘느낌 적으로’ 알 수 있습니다. ‘느낌적’이 아닌 실제 데이터에서는 이런 트렌드가 어떤 식으로 나타날까요? 트렌드를 우리가 나름대로 정의할 수 있다면, 미래에 트렌디하다고 예상될 지역을 예측할 수도 있습니다.

 

들어가기에 앞서…

  트렌드란 단어가 참 추상적입니다. 이 포스트는 트렌드란 무엇인지를 파악하는 과정이라고도 볼 수 있습니다. 이 과정에 쓰인 데이터는 아래와 같습니다.

  1. SKT 유동 인구 데이터 (2019.09.11 )
  2. 인스타그램 크롤링 데이터 
  3. 휴게음식점 식품위생업소 현황 데이터

  위 데이터만으로 트렌드를 정의하기에 부족하지만, 한정된 데이터로 의미를 발굴하고자 노력했습니다. 이에 따라, 제약사항이 많습니다. 주말이 아닌 평일의, 하루 치 유동 인구 데이터만으로 일반화를 시도했고, SNS를 쓰는 인구만을 트렌드와 관련 지었으며, 부동산 데이터나 대중교통 데이터 등 다양한 요소들이 반영되지 않았단 점을 밝힙니다. 

  따라서, 트렌드와 관련된 인구의 특징이 특정 연령대, 시간대, 성별, 키워드로 쏠릴 수 있습니다. 하지만 절대적으로 다른 연령대, 다른 지역이 트렌디하지 않다는 것은 아닙니다. 이 포스트는 한정된 데이터 세트 내에서 얻은 결론일 뿐인 점, 양해 부탁드립니다.

 

SNS 상에 나타난 트렌드

  트렌디한 지역은 많은 사람들이 찾고, 가고 싶어하는, 또는 자주 가는 곳 이라고 생각합니다. 사람은 인상 깊었을 때, 어떤 순간을 기억에 남기고 싶을 때 사진을 찍습니다. 그런 점에서 SNS상의 포스트와 사진은 사람들의 선호도를 반영한다고 할 수 있습니다. 따라서, SNS 상에 얼마만큼의 포스트를 올렸는지를 토대로 해당 지역의 트렌디함을 파악해볼까 합니다.

행정동 별 누적 포스트 수 비교

  SNS에서 각 행정동 별 누적 포스트 수를 비교한 결과, 마포구 중에서 가장 많은 포스트 수를 차지하는 지역은 홍대(서교동)였습니다. 영등포구에선 여의도의 포스트 수가 가장 많았죠. 홍대의 포스트 수는 약 1천 6백만개로, 여의도 포스트 수의 8.5배였습니다. SNS상에서 두 지역의 트렌디한 정도가 뚜렷하게 차이가 났습니다. 

최근 일주일 누적 포스트 수와 총 누적 포스트 수의 경우 양상이 비슷하게 나타났습니다. 이 수를 기준으로 하면 가장 홍대, 연남동, 합정, 여의도 순으로 포스트 수가 많습니다. 하지만 최근 일주일 간 포스팅 비율은 연남동이 가장 높고 이후 홍대, 망원동, 합정 순서로 높습니다.

  최근에 포스팅 비율이 높은 지역일수록 트렌디하다고 생각할 수 있다면, 위 결과가 어느정도 의미가 있어 보입니다. 포스팅 비율로 보면 홍대(서교동), 연남동이 가장 높았고, 이후 망원동, 합정, 상수 순으로 높았습니다. 한편 직장인 지역인 여의도, 영등포는 포스팅 비율이 낮았습니다. 

이후 분석에서는, 위 분석 결과를 토대로 홍대, 연남동, 합정, 망원동 등을 트렌디한 지역으로, 직장인 지역인 여의도 일대를  트렌디하지 않는 지역으로 가정하고 진행합니다. 유동인구 데이터에서 트렌드가 어떻게 나타날까요?

 

 

 SKT 유동 인구 데이터를 다양한 시각에서 탐색하여 사회적으로 ‘트렌디’한 지역과 그렇지 않은 지역의 차이를 비교/분석해봅니다. 이를 통해 트렌드의 특징을 파악해보고자 합니다. 정리하면 아래와 같습니다.

  • 유동인구 데이터 EDA
  • 지역별/시간별 데이터 분석
  • 연령별 데이터 분석
  • 성별 데이터 분석
  • 트렌드 분석
  • 트렌드를 주도하는 인구의 특징
  • 트렌드 feature 탐색

 

지역별, 시간별 데이터 분석

우선 지역별, 시간별로 데이터를 시각화해보았습니다.

유출입 인구 정의

가시화를 해보니 문제점이 있었습니다. 해당 유동 인구 데이터는 실거주 인구수가 합쳐진 데이터였습니다. 해당 지역의 트렌드를 비교 분석하기 위해선 해당 지역의 실거주 인구수를 제외한 유출입 인구만을 파악할 필요가 있습니다. 

이를 위해, 가장 낮은 유동 인구 수를 나타내는 시간대인, 새벽 4시대의 인구를 실거주 인구수로 가정하였습니다.

유출입 인구 = 유동 인구 – 실거주 인구 (새벽 4시경 유동 인구)

시간대별 유출입 인구를 구하고 다시 그래프로 이를 표현해 보았습니다.

위 그래프에서 파란색 선은 마포구를, 초록색 선은 영등포구를 나타냅니다. 전처리 이후라 두 지역 모두 새벽 4시경에 유출입 인구가 0으로 나타나네요. 

행정동별 시간별 유출입 인구

위 그래프는 두 구를 비교한 것입니다. 구내에 여러 행정동이 합산되어 그래프가 그려지기에, 엄밀한 트렌드 비교 분석이 어려웠습니다. 행정동별로는 어떤 경향을 띠는지 살펴보았습니다.

그래프에서 보면 여의도와 홍대(서교동)가 가장 눈에 띄는데요. 히스토그램을 통해 좀 더 선명하게 비교해보도록 하죠.

적합한 행정동 선택

행정동별 모든 시간대 유출입 인구의 절댓값을 히스토그램으로 표현해 봤습니다.

 앞서 SNS 포스트 수가 가장 많았던 두 지역(홍대, 여의도)이 역시 유출입 인구도 많았습니다. 수많은 행정동의 트렌드를 분석하기에 앞서, 유출입 인구가 가장 많은 두 행정동을 비교했습니다. 일부 유출입 인구가 적은 행정동의 경우, 트렌디 하지 않다고 나타날 수도 있기 때문이죠. 이를위해, 영등포구에선 여의도, 마포구에선 홍대(서교동)를 선택하여 비교/분석하였습니다.  

여의도 vs 홍대(서교동) 시간대별 유출입 인구 비교/분석

시간대별 그래프를 통해 아래와 같은 사항을 확인할 수 있었습니다.

 

  • 여의도은 출퇴근 시간을 전후로 인구가 급격히 늘어나 10~11시에 최대치에 도달하고, 이후 지속적으로 감소합니다.
  • 홍대(서교동)는 19시까지 인구가 계속 유입되어 19시에 최대치에 도달하고, 이후로 점차 감소하기 시작합니다. 

  • 퇴근 시간 이후에 유입되는 18시 ~ 20시 인구의 경우, 홍대(서교동) 일대에서 문화생활을 즐길 것으로 예상할 수 있습니다.
  • 19~20시 사이 아직 남아있는 여의도동 인구는 야근 혹은 회식을 하는 직장인일 것으로 추정됩니다.
  • 트렌드는 해당 지역에서 늦은 시간대 여가활동을 하는 인구수와 관련있어 보입니다.

 

앞서 관찰한 두 행정동에서의 인구 변화를 지도 데이터에서도 확인할 수 있었습니다.

  위 분석을 토대로 본다면 늦은 시간대 (21시 이후) 유출입 인구수와 아침 시간대 (9시 이전)에 유출입 인구수의 차이가 트렌드의 특징이 될 수도 있습니다. 지역별로 이를 가시화하니, 처음에 SNS 데이터를 이용해 가정한 트렌디한 지역들의 경우 유출입 이 값이 +를 띄는 것을 볼 수 있습니다. 직장인 지역의 경우 -값을 나타냅니다.

 

 

 

연령대별 데이터 분석

다음으로, 인구의 연령대와 트렌드의 관계를 파악하고자, 연령대별로도 데이터를 시각화해보았습니다.

 

세로축은 세대를 나타내고, 가로축은 시간을 나타냅니다.

 

  • 여의도보다 홍대(서교동)의 유출입 인구 연령대가 낮습니다.
  • 여의도의 경우 30~40대 인구가 지배적입니다.
  • 홍대(서교동)에서 18시 이후 저녁 시간대의 연령대는 20대, 30대가 많고, 그중 20대가 가장 지배적입니다.
  • 홍대(서교동)의 경우 15~20시 사이, 10대 인구의 활동도 관찰할 수 있습니다.

 

  • 홍대(서교동)에서 퇴근 이후의 시간에 주로 활동하는 연령대는 20대와 30대 입니다.
  • 20, 30대 연령대가 트렌드와 관련 깊은 것으로 분석할 수 있습니다.

트렌드와 관련 깊은 인구의 연령대, 주된 활동 시간을 파악할 수 있었습니다. 그렇다면 성별은 트렌드와 어떤 관련이 있을까요? 

 

성별 데이터 분석

트렌드와 인구의 성별간 관계를 파악하기 위해, 유출입 인구가 활발한 시간대와 연령대를 선택하고 해당 데이터에서 성비를 시각화해보았습니다.

 

  • 여의도 인구의 남녀 성비를 보면, 20대의 경우 여성의 비율이 높지만, 30대부터 남성의 비율이 높고, 40, 50대의 경우 남성의 비율이 70%대를 차지합니다.
  • 여의도의 경우 퇴근 시간(17~18시) 이후 유출입 인구가 거의 없습니다.
  • 홍대(서교동) 인구의 경우 20대는 여성의 비율이 높고, 30대는 비슷한 비율을 차지합니다.
  • 홍대(서교동)에서, 22시 부터는 20대의 여성 비율보다 남성 비율이 높은 것을 관찰할 수 있습니다. 
  • 남성보다 여성들의 귀가 시간이 좀 더 이른 것으로 보입니다.

 

  • 앞서 정의한 장소, 시간, 연령대를 보면 20대의 경우 여성의 비율이 좀 더 높습니다. 30대의 경우 남/여 비율이 비슷합니다.
  • 트렌드는 특정 시간대 남녀 비율과 상관관계가 있어 보입니다.

정리

  SNS 포스팅 수를 기준으로 각 지역의 트렌드를 비교했습니다. 이를 토대로 트렌디하고 가정한 홍대와 직장인 지역인 여의도를 유출입 인구를 토대로 비교해보았고, 그 결과 트렌드의 특징을 파악할 수 있었습니다. 트렌드는 저녁시간대 활동하는 20, 30대 인구 (20대의 경우 여성이 좀 더 높은 비율) 와 관련 깊다고 할 수 있습니다. 그렇다면 해당 인구의 관심사는 무엇일까요?

 

 

트렌드와 관련된 인구의 관심사

크롤링 결과 (개인 정보 보호를 위해 흐리게 나타냈습니다.)

 

 트렌디한 지역의 관심사를  파악하여 트렌드에 대한 이해를 넓히고자, 홍대(서교동) 일대의 SNS(인스타그램) 데이터를 분석해보았습니다. 앞선 데이터와 결합하기 위해서 작성 시간과 위치 정보를 포함한 형식으로 크롤링했습니다.

 1700여개의 데이터를 수집했습니다. (인스타그램에서 하루 누적 요청수 제한을 두어, 데이터 수집이 충분치 않습니다) 데이터가 소량인 관계로 시간대별, 연령대별 가시화가 아닌 해당 지역의 데이터를 가시화하였습니다.

 

SNS 단어별 빈도수

워드 클라우드

  트렌디한 지역(홍대(서교동))의 주된 관심사는 디저트와 고양이, 타투로 나타납니다. 이중에서 디저트와 고양이는 디저트카페, 고양이카페 등은 프렌차이즈로 나타나기 보단, 해당 지역 고유의 카페(프렌차이즈가 아닌, 개인 카페)로 나타나지 않을까요? 

  홍대(서교동)/여의도 두 지역간의 개인 카페/프렌차이즈 카페 분포를 직접 분석해보고, 이러한 경향이 반영되는지 같이 확인해보시죠.

 

홍대(서교동)/여의도 카페 비교

두 지역간의 프렌차이즈 카페, 개인 카페를 비교해보았습니다.

이를 위해 서울 열린데이터 광장에서 “서울시 마포구 휴게음식점 식품위생업소 현황”, “서울시 영등포구 휴게음식점 식품위생업소 현황” 데이터를 이용했습니다. 업태명이 커피숍이 아니더라도 카페인 곳은 포함했습니다.

 

두 지역 모두 개인 카페가 많았지만, 홍대(서교동)의 경우 전체 카페중 92%가 개인 카페였습니다. 홍대의 개인 카페 비율이 더 높은 것으로 보아, 앞서 생각했던 가정(고양이, 디저트 관련 카페들의 경우 프렌차이즈 보단, 개인 카페로 나타날 것이다)과 어느 정도 일치하는 결과라 생각합니다. 다른 행정동에서도 이와 같은 양상을 띄는지 확인하고자 각 행정동의 개인 카페 개수 및 개인/프렌차이즈 카페 비율을 조사해보았습니다.

 

카페가 100개 이상인 행정동중에서 개인 카페개수(최대 개수 기준 비율)를 비교해보았습니다. 

홍대(서교동)와 여의도의 개인 카페가 가장 많았습니다. 하지만, 개인카페/프랜차이즈의 비율 1위는 홍대(서교동)가 아니었습니다.

 

개인카페 비율이 가장 높은 행정동은 연남동, 망원동, 홍대(서교동)이었으며, 가장 낮은 행정동은 여의도, 상암동, 영등포동이었습니다. 위 데이터는 처음에 분석한 ‘지역별 SNS 최근 포스팅 비율’과 관련있네요. 해당 데이터에서도 연남동, 망원동, 홍대가 높게 나왔었죠. 

  위 분석들을 토대로 트렌드의 특징을 나름대로 정의해보았습니다.

 

위에서 정의한 특징을 바탕으로, 트렌드와 관련된 feature(여기선 특징과 구분 짓기 위해 feature로 쓰기로 합니다.)를 정의해 보았습니다.

트렌드 feature 정의

  • 18시~21시경 20대 유출입 인구수
  • 21시~24시경 20대 유출입 인구수
  • 18시~21시경 30대 유출입 인구수
  • 21시~24시경 30대 유출입 인구수
  • 18시~21시경 20대 남녀 비율
  • 18시~21시경 30대 남녀 비율
  • 밤/아침 유출입 인구 차이 
  • 밤/아침 비교 유입 인구 여부 
  • 개인 카페개수
  • 개인 카페/프랜차이즈 카페 비율

밤/아침 비교 유입 인구 여부의 경우, 밤/아침간 유출입 인구가 양수일 경우 1을, 음수일 경우 0으로 나타낸 값입니다.

 각 행정동별로, 정의한 feature를 vector로 표현하면 다음과 같습니다.

 

정의한 feature들이 모두 트렌디한 지역와 관련깊은 요소일까요? 그렇다면 좋겠지만 아닐 경우가 더 많습니다. 이를 위해, 적합한 feature를 선택하는 과정을 진행했습니다.

 

트렌드 feature 선택

 

 트렌드와 보다 관련 깊은 feature를 선택하기 위해 상관관계를 분석했습니다. 각 feature 별로 계수의 값이 1에 가까울 수록 양의 상관관계가 높고, -1에 가까울수록 음의 상관관계가 높습니다. 0일 경우 선형관계가 없다고 할 수 있습니다.

 

 트렌드와 상관관계가 높은 feature는 순서대로 21~24시 20대 인구수(0.6), 18~21시 20대 인구수(0.59), 21~24시 30대 인구수(0.58)였습니다. 그리고 18~21시 30대 인구수도 높은 상관관계(0.49)에 해당하지만, 앞선 지수보단 높지 않았습니다. 

  개인카페/프렌차이즈 카페비율(0.49) 과 카페개수(0.46)의 상관관계도 높은 편에 속합니다. 이외에도 밤/아침 유출입 인구 차이, 18~21시 사이 20대 성비도 상관관계가 있었습니다. 앞서 분석한대로 30대의 성비는 상관관계가 낮았습니다.

분석 정리

  SNS 데이터, SKT 유동 인구 데이터, 카페 데이터를 토대로 트렌드의 특징을 정의해보았습니다. 정의한 특징중에서 가정한 트렌드와 유의미한 상관관계가 있는 특징들도 살펴보았습니다. 

추후 포스팅 주제

  보다 다양한 시간대, 지역의 여러 데이터들을 분석한다면 어느 지역에 대한 트렌드 지수를 정량화하고, 이를 기반으로 트렌드를 예측할 수도 있지 않을까요? 이는 추후에 진행할 예정입니다. 

분석은 이상으로 마치도록 하겠습니다. 번외로, 중간에 SNS 워드 클라우드에서 쌩뚱맞은 단어가 나왔는데요. 이와 관련한 내용을 말씀드릴까해요.

트렌디한 지역 답사

  워드 클라우드에서 1 순위로 꼽힌 딸기 타르트’, 실제로 정말 그렇게 맛있을까요? 제가 직접 가서 먹어보았습니다.

레드빅

레드빅은 딸기 타르트 관련 리뷰 1위 지점이었습니다. 레드빅 위치는 홍대(서교동)로, 홍대입구역에서 걸어갈 수 있습니다!

카페 외관은 입구에 벽돌과 조명이 있어서 그런지 뭔가 아늑해 보입니다. 딸기타르트 이외에도 많은 과일 타르트가 있었습니다.~ 저는 딸기 타르트를 구매했습니다.  어디에 앉을까 하다가 꽃이있는 테이블이 있길래 이 곳에 앉았습니다. 😊뭔가 연인들이 데이트하기 좋을 것 같네요 👍. 꽃이 있는 자리 이외에도, 공간 넓어서 개인이 와서 공부하기에도 좋아 보였어요. 😁 넘 맛있어서 순식간에 비워버렸습니다. ☺️ 위에 있는 딸기가 정말 상큼합니다. 조금 눅눅하지 않을까 걱정했는데 왠걸, 딸기가 정말 싱싱해요. 밑에있는 파이?도 맛있어요. 꼭 드셔보세요!!

 

피오니

피오니도 레드빅만큼 리뷰가 많았습니다. 여긴 딸기케이크가 더 유명했어요!

피오니 위치는 레드빅과 가까웠습니다~ 걸어서 5분 정도입니다만, 합정역에서 좀 더 가까울 것 같아요.

피오니 입구입니다~ 평일날 갔는데도 사람이 굉장히 많았어요. 레드빅도 많긴 했지만, 여기가 좀 더 사람들이 많아 보였습니다. 딸기 케이크를 먹을까 아니면, 위에 프레지에?를 먹을까 고민하다가 프레지에를 주문했습니다! 더 맛있어 보였거든요 😁😁

엇…. 아까 타르트를 먹어 배가 불렀는데도 불구하고 순삭했네요… 너무 맛있어요! 너무 달면 어쩌나 걱정했는데, 적당한 달콤함 + 딸기의 상큼함…  너무 잘 어울렸네요. 딸기 타르트도 맛있긴 하지만, 여기 딸기 케이크가 더 좋았습니다. 😍

장소나 분위기는 레드빅이 더 좋아보였어요. 저처럼 카페에서 공부하시는 분은 레드빅이 나을 것 같아요 ☺️

이상으로 포스팅을 마치겠습니다~ 긴 글 읽어주셔서 감사합니다. 😁

 

 

 


한정된 데이터였지만, 이번 분석을 통해 ‘트렌드’에 대한 이해를 넓힐 수 있었습니다.

이번 배움을 다음 포스팅에 반영하여,  더 좋은 정보를 공유하겠습니다.

Written and Analyzed by 데이터 컨설팅팀 김도환 전임


 

 

사용된 Tool

 

Portfolio Items