유동인구 데이터를 이용한 홍대 vs 여의도 요새 어떤가요 !?!?

 

영등포구에서 여의도 인근 지역은 직장인들이 많은 곳 중 하나입니다. 한편, 마포구 내 홍대(서교동), 연남동, 망원동 등은 최근 들어선 소위 ‘힙한 지역’이라고 불리는 곳이 많죠. 두 지역을 비교해 보면, 사회적으로 마포구 일대가 보다 트렌디한 것을 우리는 ‘느낌 적으로’ 알 수 있습니다. ‘느낌적’이 아닌 실제 데이터에서는 이런 트렌드가 어떤 식으로 나타날까요? 트렌드를 우리가 나름대로 정의할 수 있다면, 미래에 트렌디하다고 예상될 지역을 예측할 수도 있습니다.

 

들어가기에 앞서…

트렌드란 단어가 참 추상적입니다. 이 포스트는 트렌드란 무엇인지를 파악하는 과정이라고도 볼 수 있습니다. 이 과정에 쓰인 데이터는 아래와 같습니다.

  1. SKT 유동 인구 데이터 (2019.09.11 )
  2. 인스타그램 크롤링 데이터
  3. 휴게음식점 식품위생업소 현황 데이터

위 데이터만으로 트렌드를 정의하기에 부족하지만, 한정된 데이터로 의미를 발굴하고자 노력했습니다. 이에 따라, 제약사항이 많습니다. 주말이 아닌 평일의, 하루 치 유동 인구 데이터만으로 일반화를 시도했고, SNS를 쓰는 인구만을 트렌드와 관련 지었으며, 부동산 데이터나 대중교통 데이터 등 다양한 요소들이 반영되지 않았단 점을 밝힙니다.

따라서, 트렌드와 관련된 인구의 특징이 특정 연령대, 시간대, 성별, 키워드로 쏠릴 수 있습니다. 하지만 절대적으로 다른 연령대, 다른 지역이 트렌디하지 않다는 것은 아닙니다. 이 포스트는 한정된 데이터 세트 내에서 얻은 결론일 뿐인 점, 양해 부탁드립니다.

 

SNS 상에 나타난 트렌드

트렌디한 지역은 많은 사람들이 찾고, 가고 싶어하는, 또는 자주 가는 곳 이라고 생각합니다. 사람은 인상 깊었을 때, 어떤 순간을 기억에 남기고 싶을 때 사진을 찍습니다. 그런 점에서 SNS상의 포스트와 사진은 사람들의 선호도를 반영한다고 할 수 있습니다. 따라서, SNS 상에 얼마만큼의 포스트를 올렸는지를 토대로 해당 지역의 트렌디함을 파악해볼까 합니다.

행정동 별 누적 포스트 수 비교

SNS에서 각 행정동 별 누적 포스트 수를 비교한 결과, 마포구 중에서 가장 많은 포스트 수를 차지하는 지역은 홍대(서교동)였습니다. 영등포구에선 여의도의 포스트 수가 가장 많았죠. 홍대의 포스트 수는 약 1천 6백만개로, 여의도 포스트 수의 8.5배였습니다. SNS상에서 두 지역의 트렌디한 정도가 뚜렷하게 차이가 났습니다.

최근 일주일 누적 포스트 수와 총 누적 포스트 수의 경우 양상이 비슷하게 나타났습니다. 이 수를 기준으로 하면 가장 홍대, 연남동, 합정, 여의도 순으로 포스트 수가 많습니다. 하지만 최근 일주일 간 포스팅 비율은 연남동이 가장 높고 이후 홍대, 망원동, 합정 순서로 높습니다.

최근에 포스팅 비율이 높은 지역일수록 트렌디하다고 생각할 수 있다면, 위 결과가 어느정도 의미가 있어 보입니다. 포스팅 비율로 보면 홍대(서교동), 연남동이 가장 높았고, 이후 망원동, 합정, 상수 순으로 높았습니다. 한편 직장인 지역인 여의도, 영등포는 포스팅 비율이 낮았습니다.

이후 분석에서는, 위 분석 결과를 토대로 홍대, 연남동, 합정, 망원동 등을 트렌디한 지역으로, 직장인 지역인 여의도 일대를 트렌디하지 않는 지역으로 가정하고 진행합니다. 유동인구 데이터에서 트렌드가 어떻게 나타날까요?

 

 

SKT 유동 인구 데이터를 다양한 시각에서 탐색하여 사회적으로 ‘트렌디’한 지역과 그렇지 않은 지역의 차이를 비교/분석해봅니다. 이를 통해 트렌드의 특징을 파악해보고자 합니다. 정리하면 아래와 같습니다.

  • 유동인구 데이터 EDA
  • 지역별/시간별 데이터 분석
  • 연령별 데이터 분석
  • 성별 데이터 분석
  • 트렌드 분석
  • 트렌드를 주도하는 인구의 특징
  • 트렌드 feature 탐색

 

지역별, 시간별 데이터 분석

우선 지역별, 시간별로 데이터를 시각화해보았습니다.

유출입 인구 정의

가시화를 해보니 문제점이 있었습니다. 해당 유동 인구 데이터는 실거주 인구수가 합쳐진 데이터였습니다. 해당 지역의 트렌드를 비교 분석하기 위해선 해당 지역의 실거주 인구수를 제외한 유출입 인구만을 파악할 필요가 있습니다.

이를 위해, 가장 낮은 유동 인구 수를 나타내는 시간대인, 새벽 4시대의 인구를 실거주 인구수로 가정하였습니다.

유출입 인구 = 유동 인구 – 실거주 인구 (새벽 4시경 유동 인구)

시간대별 유출입 인구를 구하고 다시 그래프로 이를 표현해 보았습니다.

위 그래프에서 파란색 선은 마포구를, 초록색 선은 영등포구를 나타냅니다. 전처리 이후라 두 지역 모두 새벽 4시경에 유출입 인구가 0으로 나타나네요.

행정동별 시간별 유출입 인구

위 그래프는 두 구를 비교한 것입니다. 구내에 여러 행정동이 합산되어 그래프가 그려지기에, 엄밀한 트렌드 비교 분석이 어려웠습니다. 행정동별로는 어떤 경향을 띠는지 살펴보았습니다.

그래프에서 보면 여의도와 홍대(서교동)가 가장 눈에 띄는데요. 히스토그램을 통해 좀 더 선명하게 비교해보도록 하죠.

적합한 행정동 선택

행정동별 모든 시간대 유출입 인구의 절댓값을 히스토그램으로 표현해 봤습니다.

앞서 SNS 포스트 수가 가장 많았던 두 지역(홍대, 여의도)이 역시 유출입 인구도 많았습니다. 수많은 행정동의 트렌드를 분석하기에 앞서, 유출입 인구가 가장 많은 두 행정동을 비교했습니다. 일부 유출입 인구가 적은 행정동의 경우, 트렌디 하지 않다고 나타날 수도 있기 때문이죠. 이를위해, 영등포구에선 여의도, 마포구에선 홍대(서교동)를 선택하여 비교/분석하였습니다.

여의도 vs 홍대(서교동) 시간대별 유출입 인구 비교/분석

시간대별 그래프를 통해 아래와 같은 사항을 확인할 수 있었습니다.

 

  • 여의도은 출퇴근 시간을 전후로 인구가 급격히 늘어나 10~11시에 최대치에 도달하고, 이후 지속적으로 감소합니다.
  • 홍대(서교동)는 19시까지 인구가 계속 유입되어 19시에 최대치에 도달하고, 이후로 점차 감소하기 시작합니다.

  • 퇴근 시간 이후에 유입되는 18시 ~ 20시 인구의 경우, 홍대(서교동) 일대에서 문화생활을 즐길 것으로 예상할 수 있습니다.
  • 19~20시 사이 아직 남아있는 여의도동 인구는 야근 혹은 회식을 하는 직장인일 것으로 추정됩니다.
  • 트렌드는 해당 지역에서 늦은 시간대 여가활동을 하는 인구수와 관련있어 보입니다.

 

앞서 관찰한 두 행정동에서의 인구 변화를 지도 데이터에서도 확인할 수 있었습니다.

위 분석을 토대로 본다면 늦은 시간대 (21시 이후) 유출입 인구수와 아침 시간대 (9시 이전)에 유출입 인구수의 차이가 트렌드의 특징이 될 수도 있습니다. 지역별로 이를 가시화하니, 처음에 SNS 데이터를 이용해 가정한 트렌디한 지역들의 경우 유출입 이 값이 +를 띄는 것을 볼 수 있습니다. 직장인 지역의 경우 -값을 나타냅니다.

 

 

 

연령대별 데이터 분석

다음으로, 인구의 연령대와 트렌드의 관계를 파악하고자, 연령대별로도 데이터를 시각화해보았습니다.

 

세로축은 세대를 나타내고, 가로축은 시간을 나타냅니다.

 

  • 여의도보다 홍대(서교동)의 유출입 인구 연령대가 낮습니다.
  • 여의도의 경우 30~40대 인구가 지배적입니다.
  • 홍대(서교동)에서 18시 이후 저녁 시간대의 연령대는 20대, 30대가 많고, 그중 20대가 가장 지배적입니다.
  • 홍대(서교동)의 경우 15~20시 사이, 10대 인구의 활동도 관찰할 수 있습니다.

 

  • 홍대(서교동)에서 퇴근 이후의 시간에 주로 활동하는 연령대는 20대와 30대 입니다.
  • 20, 30대 연령대가 트렌드와 관련 깊은 것으로 분석할 수 있습니다.

트렌드와 관련 깊은 인구의 연령대, 주된 활동 시간을 파악할 수 있었습니다. 그렇다면 성별은 트렌드와 어떤 관련이 있을까요?

 

성별 데이터 분석

트렌드와 인구의 성별간 관계를 파악하기 위해, 유출입 인구가 활발한 시간대와 연령대를 선택하고 해당 데이터에서 성비를 시각화해보았습니다.

 

  • 여의도 인구의 남녀 성비를 보면, 20대의 경우 여성의 비율이 높지만, 30대부터 남성의 비율이 높고, 40, 50대의 경우 남성의 비율이 70%대를 차지합니다.
  • 여의도의 경우 퇴근 시간(17~18시) 이후 유출입 인구가 거의 없습니다.
  • 홍대(서교동) 인구의 경우 20대는 여성의 비율이 높고, 30대는 비슷한 비율을 차지합니다.
  • 홍대(서교동)에서, 22시 부터는 20대의 여성 비율보다 남성 비율이 높은 것을 관찰할 수 있습니다.
  • 남성보다 여성들의 귀가 시간이 좀 더 이른 것으로 보입니다.

 

  • 앞서 정의한 장소, 시간, 연령대를 보면 20대의 경우 여성의 비율이 좀 더 높습니다. 30대의 경우 남/여 비율이 비슷합니다.
  • 트렌드는 특정 시간대 남녀 비율과 상관관계가 있어 보입니다.

정리

SNS 포스팅 수를 기준으로 각 지역의 트렌드를 비교했습니다. 이를 토대로 트렌디하고 가정한 홍대와 직장인 지역인 여의도를 유출입 인구를 토대로 비교해보았고, 그 결과 트렌드의 특징을 파악할 수 있었습니다. 트렌드는 저녁시간대 활동하는 20, 30대 인구 (20대의 경우 여성이 좀 더 높은 비율) 와 관련 깊다고 할 수 있습니다. 그렇다면 해당 인구의 관심사는 무엇일까요?

 

 

트렌드와 관련된 인구의 관심사

크롤링 결과 (개인 정보 보호를 위해 흐리게 나타냈습니다.)

 

트렌디한 지역의 관심사를 파악하여 트렌드에 대한 이해를 넓히고자, 홍대(서교동) 일대의 SNS(인스타그램) 데이터를 분석해보았습니다. 앞선 데이터와 결합하기 위해서 작성 시간과 위치 정보를 포함한 형식으로 크롤링했습니다.

1700여개의 데이터를 수집했습니다. (인스타그램에서 하루 누적 요청수 제한을 두어, 데이터 수집이 충분치 않습니다) 데이터가 소량인 관계로 시간대별, 연령대별 가시화가 아닌 해당 지역의 데이터를 가시화하였습니다.

 

SNS 단어별 빈도수

워드 클라우드

트렌디한 지역(홍대(서교동))의 주된 관심사는 디저트와 고양이, 타투로 나타납니다. 이중에서 디저트와 고양이는 디저트카페, 고양이카페 등은 프렌차이즈로 나타나기 보단, 해당 지역 고유의 카페(프렌차이즈가 아닌, 개인 카페)로 나타나지 않을까요?

홍대(서교동)/여의도 두 지역간의 개인 카페/프렌차이즈 카페 분포를 직접 분석해보고, 이러한 경향이 반영되는지 같이 확인해보시죠.

 

홍대(서교동)/여의도 카페 비교

두 지역간의 프렌차이즈 카페, 개인 카페를 비교해보았습니다.

이를 위해 서울 열린데이터 광장에서 “서울시 마포구 휴게음식점 식품위생업소 현황”, “서울시 영등포구 휴게음식점 식품위생업소 현황” 데이터를 이용했습니다. 업태명이 커피숍이 아니더라도 카페인 곳은 포함했습니다.

 

두 지역 모두 개인 카페가 많았지만, 홍대(서교동)의 경우 전체 카페중 92%가 개인 카페였습니다. 홍대의 개인 카페 비율이 더 높은 것으로 보아, 앞서 생각했던 가정(고양이, 디저트 관련 카페들의 경우 프렌차이즈 보단, 개인 카페로 나타날 것이다)과 어느 정도 일치하는 결과라 생각합니다. 다른 행정동에서도 이와 같은 양상을 띄는지 확인하고자 각 행정동의 개인 카페 개수 및 개인/프렌차이즈 카페 비율을 조사해보았습니다.

 

카페가 100개 이상인 행정동중에서 개인 카페개수(최대 개수 기준 비율)를 비교해보았습니다.

홍대(서교동)와 여의도의 개인 카페가 가장 많았습니다. 하지만, 개인카페/프랜차이즈의 비율 1위는 홍대(서교동)가 아니었습니다.

 

개인카페 비율이 가장 높은 행정동은 연남동, 망원동, 홍대(서교동)이었으며, 가장 낮은 행정동은 여의도, 상암동, 영등포동이었습니다. 위 데이터는 처음에 분석한 ‘지역별 SNS 최근 포스팅 비율’과 관련있네요. 해당 데이터에서도 연남동, 망원동, 홍대가 높게 나왔었죠.

위 분석들을 토대로 트렌드의 특징을 나름대로 정의해보았습니다.

 

위에서 정의한 특징을 바탕으로, 트렌드와 관련된 feature(여기선 특징과 구분 짓기 위해 feature로 쓰기로 합니다.)를 정의해 보았습니다.

트렌드 feature 정의

  • 18시~21시경 20대 유출입 인구수
  • 21시~24시경 20대 유출입 인구수
  • 18시~21시경 30대 유출입 인구수
  • 21시~24시경 30대 유출입 인구수
  • 18시~21시경 20대 남녀 비율
  • 18시~21시경 30대 남녀 비율
  • 밤/아침 유출입 인구 차이
  • 밤/아침 비교 유입 인구 여부
  • 개인 카페개수
  • 개인 카페/프랜차이즈 카페 비율

밤/아침 비교 유입 인구 여부의 경우, 밤/아침간 유출입 인구가 양수일 경우 1을, 음수일 경우 0으로 나타낸 값입니다.

각 행정동별로, 정의한 feature를 vector로 표현하면 다음과 같습니다.

 

정의한 feature들이 모두 트렌디한 지역와 관련깊은 요소일까요? 그렇다면 좋겠지만 아닐 경우가 더 많습니다. 이를 위해, 적합한 feature를 선택하는 과정을 진행했습니다.

 

트렌드 feature 선택

 

트렌드와 보다 관련 깊은 feature를 선택하기 위해 상관관계를 분석했습니다. 각 feature 별로 계수의 값이 1에 가까울 수록 양의 상관관계가 높고, -1에 가까울수록 음의 상관관계가 높습니다. 0일 경우 선형관계가 없다고 할 수 있습니다.

 

트렌드와 상관관계가 높은 feature는 순서대로 21~24시 20대 인구수(0.6), 18~21시 20대 인구수(0.59), 21~24시 30대 인구수(0.58)였습니다. 그리고 18~21시 30대 인구수도 높은 상관관계(0.49)에 해당하지만, 앞선 지수보단 높지 않았습니다.

개인카페/프렌차이즈 카페비율(0.49) 과 카페개수(0.46)의 상관관계도 높은 편에 속합니다. 이외에도 밤/아침 유출입 인구 차이, 18~21시 사이 20대 성비도 상관관계가 있었습니다. 앞서 분석한대로 30대의 성비는 상관관계가 낮았습니다.

분석 정리

SNS 데이터, SKT 유동 인구 데이터, 카페 데이터를 토대로 트렌드의 특징을 정의해보았습니다. 정의한 특징중에서 가정한 트렌드와 유의미한 상관관계가 있는 특징들도 살펴보았습니다.

추후 포스팅 주제

보다 다양한 시간대, 지역의 여러 데이터들을 분석한다면 어느 지역에 대한 트렌드 지수를 정량화하고, 이를 기반으로 트렌드를 예측할 수도 있지 않을까요? 이는 추후에 진행할 예정입니다.

분석은 이상으로 마치도록 하겠습니다. 번외로, 중간에 SNS 워드 클라우드에서 쌩뚱맞은 단어가 나왔는데요. 이와 관련한 내용을 말씀드릴까해요.

트렌디한 지역 답사

워드 클라우드에서 1 순위로 꼽힌 딸기 타르트’, 실제로 정말 그렇게 맛있을까요? 제가 직접 가서 먹어보았습니다.

레드빅

레드빅은 딸기 타르트 관련 리뷰 1위 지점이었습니다. 레드빅 위치는 홍대(서교동)로, 홍대입구역에서 걸어갈 수 있습니다!

카페 외관은 입구에 벽돌과 조명이 있어서 그런지 뭔가 아늑해 보입니다. 딸기타르트 이외에도 많은 과일 타르트가 있었습니다.~ 저는 딸기 타르트를 구매했습니다. 어디에 앉을까 하다가 꽃이있는 테이블이 있길래 이 곳에 앉았습니다. 😊뭔가 연인들이 데이트하기 좋을 것 같네요 👍. 꽃이 있는 자리 이외에도, 공간 넓어서 개인이 와서 공부하기에도 좋아 보였어요. 😁 넘 맛있어서 순식간에 비워버렸습니다. ☺️ 위에 있는 딸기가 정말 상큼합니다. 조금 눅눅하지 않을까 걱정했는데 왠걸, 딸기가 정말 싱싱해요. 밑에있는 파이?도 맛있어요. 꼭 드셔보세요!!

 

피오니

피오니도 레드빅만큼 리뷰가 많았습니다. 여긴 딸기케이크가 더 유명했어요!

피오니 위치는 레드빅과 가까웠습니다~ 걸어서 5분 정도입니다만, 합정역에서 좀 더 가까울 것 같아요.

피오니 입구입니다~ 평일날 갔는데도 사람이 굉장히 많았어요. 레드빅도 많긴 했지만, 여기가 좀 더 사람들이 많아 보였습니다. 딸기 케이크를 먹을까 아니면, 위에 프레지에?를 먹을까 고민하다가 프레지에를 주문했습니다! 더 맛있어 보였거든요 😁😁

엇…. 아까 타르트를 먹어 배가 불렀는데도 불구하고 순삭했네요… 너무 맛있어요! 너무 달면 어쩌나 걱정했는데, 적당한 달콤함 + 딸기의 상큼함… 너무 잘 어울렸네요. 딸기 타르트도 맛있긴 하지만, 여기 딸기 케이크가 더 좋았습니다. 😍

장소나 분위기는 레드빅이 더 좋아보였어요. 저처럼 카페에서 공부하시는 분은 레드빅이 나을 것 같아요 ☺️

이상으로 포스팅을 마치겠습니다~ 긴 글 읽어주셔서 감사합니다. 😁

 

 

 


한정된 데이터였지만, 이번 분석을 통해 ‘트렌드’에 대한 이해를 넓힐 수 있었습니다.

이번 배움을 다음 포스팅에 반영하여, 더 좋은 정보를 공유하겠습니다.

Written and Analyzed by 데이터 컨설팅팀 김도환 전임


 

 

사용된 Tool