StyleGAN2를 이용한 성격 유형별 얼굴 생성 모델 연구 개발 과정 공개! (feat. MBTI)

StyleGAN2를 이용한 성격 유형별 얼굴 생성 모델

연구 개발 과정 공개!

(feat. MBTI)

배경

안녕하세요. SPH 데이터 컨설팅팀입니다. 

SPH에서는 매출을 가져다 주는 본업과 흥미로운 R&D 주제를 함께 합니다. 각각 비중은 70%,  30%를 차지하죠.

이 연구는 저희 데이터 컨설팅팀에게 흥미로운 R&D 주제, 즉 30%에 해당하는 부분입니다. 한 달이란 짧은 시간 동안 진행된 프로젝트였습니다.

이번에 연구했던 내용들을 이번 포스팅을 통해 공유하려 합니다.

 

AI 기술 연구/개발을 위한 흥미로운 아이디어가 없을까 고민하였습니다. 당시는 MBTI가 한창 유행했을 때였죠. 지인과 얘기를 나누다가 ‘성격 유형별 관상은 어떤 특징을 지녔을까?’가 궁금해졌습니다.

그렇게 해서 나온 아이디어가 2가지 였습니다.

  1. MBTI 테스트로 나에게 어울리는 이상형을 찾은 후 2세를 찾아보자.
  2. 내 MBTI 유형은 어떤 인상을 가지고 있을까?

 

내/외부 투표 결과 2안 (MBTI 평균 얼굴 인상은?이 선택되었습니다.)이 더 많은 표를 얻었습니다.

추가 회의를 거쳤습니다. 그 결과 1안에서 나온 2세를 제외, 이상형이라는 컨셉은 추가하기로 했습니다.

위와 같은 컨셉으로 프로젝트를 진행하기로 했습니다.

지정한 컨셉에 따라 남자, 여자 연예인 각 1000여 장을 수집, 생성 모델을 학습하였고 성격 유형별 얼굴을 뽑아낼 수 있었습니다. 

 

데이터 준비

데이터 수집단계가 쉽지 않았습니다. 모아야 할 데이터는 연예인 중에서도 MBTI 성격 검사를 한 사람의 얼굴 사진이었습니다. 이때 특정 성격의 이미지가 많이 부족했습니다. 특히 ENTJ나 INTJ 유형이 그랬죠. 이 유형들은 일본이나 중국 연예인들을 수집하기도 했습니다.

기술 연구 과정

 

stylegan → stylegan2 → + ada → + freezeD → + freezeG → pixel2style2pixel

 

GAN이란?

GAN은 Generative Adversarial Network의 약자로 적대적 생성 신경망이라고 불립니다. 요즘 핫한 딥러닝 기술의 연구 분야 중 하나죠. 판별자(Discriminator)와 생성자(Generator)가 경쟁하듯이 학습하는 게 기본 원리입니다. 이 경쟁 속에서 생성자는 보다 높은 품질의 모조품을 생산할 수 있죠. GAN을 통해 기존 학습한 데이터 분포를 바탕으로 새로운 데이터를 창작할 수 있습니다.

 

GAN은 computer vision 쪽에서 많이 연구되는 데요.  CNN (Convolutional  Neural Network)과 결합되었을 때 생성할 수 있는 이미지의 퀄리티가 놀랍습니다. GAN의 종류는 매우 다양합니다. 그 중에서 MBTI 평균 얼굴을 뽑아내기 위해 착안한 GAN은 StyleGAN입니다.

StylegGAN

A Style-Based Generator Architecture for Generative Adversarial Networks 라는 Nvidia에서 나온 논문입니다. stylegan은 기존 GAN을 변형한 형태로, 이미지 생성 시 스타일을 조절할 수 있는 장점을 가지고 있습니다.

위 그림에서 볼 수 있듯이, 기존 GAN의 경우 임의의 벡터(latent z) 값에서 CNN을 거쳐 이미지를 생성합니다. StyleGAN의 경우 Mapping Network라는 걸 따로 두고 임의의 벡터값을 다른 값으로 변형시킵니다. 이를 w라고 하는데 이게 이미지를 합성하는 네트워크에 입력됩니다. 그냥 입력되는 게 아닌, Affine transformation이라는 선형 변환을 거쳐 스타일이라는 옷을 입고 입력 되죠. 이 스타일은 이미지 생성과정에 해상도마다 들어갑니다.

해상도 마다 들어간다는 게 중요합니다. 왜냐하면 해상도에 따라 이미지가 나타내는 스타일의 종류가 다르거든요. 보통 고차원의 의미를 담고 있는 부분은 4×4와 같이 낮은 해상도입니다. 해당 이미지의 전체적인 형상과 같은 고차원적 의미를 담죠. 1024×1024같이 해상도가 커질 수록 보다 디테일한 의미를 담게 되죠. 가령 머리카락의 모양이라든가 피부의 색상 등이 담기죠. Stylegan은 Mapping Network를 통해 나온 style(A 값)을 조절하여 이미지를 자연스럽게 변화시킬 수 있습니다.

StyleGan을 사용한 이유는  특정 레벨의 style이 성격 유형을 담을 수 있지 않을까 하는 기대에서 였습니다.

하지만 논문에서도 설명한 바와 같이, 물방울 모양의 부자연스러운 무언가가 생성되었습니다. 이를 해결하기 위해 stylegan2를 적용하려 했습니다.

StyleGAN2

 Analyzing and Improving the Image Quality of StyleGAN라는 논문에 소개된 기술입니다. stylegan2는 stylegan에서 이미지 생성시 부자연스러운 부분을 제거하고 보다 품질이 좋은 이미지를 생성 시킬 수 있는 버전입니다.

기존 StyleGan에서 사용된 AdaIn(adaptive instance normalization)이 문제가 됐다고 합니다. CNN을 거치며 중간 중간에 생성되는 이미지를 피쳐맵(feature map)이라 합니다. AdaIN을 이용하면 피쳐맵마다 각 평균과 분산으로 normalization 합니다. 즉 입력값의 통계량을 이용하는 것이지요. 그런데 이 방식은 피쳐맵들 사이에 상대적인 크기 차이가 있을 경우, 이 정보를 왜곡합니다.

StyleGAN2에서는  문제가 있었던 AdaIN를 수정했습니다. 뿐만 아니라, 아키텍쳐와 학습 방식에도 변화를 주어 생성 이미지의 품질이 더욱 향상 되었습니다.

StyleGAN2 ada

Training Generative Adversarial Networks with Limited Dataadaptive discriminator augmentation(ADA)라는 데이터 증강 기법을 소개한 논문입니다. ADA는 이미지 증강 기법의 일종으로, 판별자에 들어가는 이미지를 다양한 형태로 증강해주어 데이터 부족 현상을 어느 정도 극복하게 해줍니다. 우리가 가진 데이터 세트는 1000장으로 턱없이 부족했습니다. 그랬기에 이 증강 기법은 사막의 오아시스 역할을 해주었죠. 

 

구체적으로 이 증강 기법의 효과가 어떤지 살펴보겠습니다. 기존 StyleGan2의 문제점은 많은 데이터를 필요로 한다는 것이었습니다.

위 그래프(a)에서 FID가 낮을 수록 학습이 잘 된 것입니다.  데이터가 7만장이어도 과적합이 일어납니다. (b)는 5 만 장 데이터셋의 판별자의 출력 값 분포를 나타냅니다. 판별자의 출력이 높을수록 진짜라고 생각하고 낮을수록 가짜라고 생각합니다.  분포를 보면 학습할수록 실제 이미지와 생성 이미지사이의 분포가 벌어집니다. 판별자가 학습이 진행될수록 생성자의 이미지를 가짜로 확신을 하고 있습니다. 이를 보아 생성자가 제대로 된 이미지를 생성하지 못하고 있네요.

그래서 이 논문에서는 위 그림과 같이 다양한 증강기법을 이용해 이미지를 증강합니다. 그런 이미지가 판별자에 들어가 전체적인 학습에 영향을 미칩니다. 이런 원리로 학습 데이터가 비교적 소량이어도 학습이 가능해진 것입니다.

확실히 ADA를 이용할 경우 학습이 좀 더 안정적으로 진행되는 것을 보실 수 있습니다. (a)가 ADA가 없을 때, (b)가 ADA가 있을 때 입니다.

freezeD

Freeze the Discriminator: a Simple Baseline for Fine-Tuning GANs라는 논문에 소개된 내용입니다. freezeD(freeze Discriminator)는 전이 학습(transfer learning) 기술을 이용한 것으로, 기존에 많은 데이터로 학습된 판별자를 최대한 활용합니다.

freezeD의 의미는 freezing Discrimantor, 말그대로 판별자를 얼린다는 의미입니다. 판별자의 일부 층을 얼린다는 건 그 부분을 학습하지 않는 다는 말인데요. 

 

크게 판별자의 네트워크를 전반부의 특징 추출기와 후반부의 분류기로 나눌 수 있습니다. 전반적인 사물의 특징을 추출하는 것을 특징 추출기(feature extractor)라고 하죠.

 

판별자를 얼린다는 건 판별자의 네트워크 중에 앞단의 특징 추출기를 고정시킨다는 말입니다. 이전에 학습된 네트워크를 최대한 활용한다는 것이죠.

이는 특징 추출기에 쓰인 지식이 도메인이 다르더라도 대부분 유사하기에 가능합니다.

 

가령 사람의 얼굴 이미지에서 특징을 추출하는 것과 자동차 이미지에서 특징을 추출하는 데 쓰이는 지식. 이 둘사이엔 유사한 부분이 많다는 의미지요.

stylegan2에서 위 빨간 박스의 영역 부분만을 학습했습니다.

22k 학습시

30k 학습시

뭔가 학습이 진행될수록 이미지가 일그러지는 모습입니다. ada와 freezeD를 통해 이전보단 많이 나아졌긴 했습니다. 그렇지만 학습이 진행될수록 이미지가 깨지는 게 이상하단 생각이 들었어요.

생성자가 학습을 제대로 하지 못한다고 생각했습니다. 15k 기준으로 이미지가 점점 깨지기 시작합니다. 그 전까지는 괜찮았는데 말이죠. 그래서 그 전의 생성자를 최대한 유지하고 싶었습니다.

기존의 생성자에서 미세조정하면 되지 않을까란 생각이 들었죠. 구체적으로는 14k 정도에서의 생성자 네트워크 가중치를 조금만 조정해보면 어떨까? 하는 생각!입니다.

‘생성자를 고정시켜보자!’라는 생각에서 나온게 freezeG 입니다.

freezeG

freezeG(freeze Generator)는 freezeD와 마찬가지로 전이학습 기술을 사용합니다. 논문은 따로 없네요. 생성할 때도, 전체적인 형상에 대한 부분은 기존 지식을 최대한 활용하고, 세부 부분은 학습 데이터에 기반하여 점점 배워나가는 것입니다. freezeD와 freezeG모두 데이터 부족 현상을 극복하게 해주고, 사전 지식을 활용하기 때문에 보다 빠른 학습을 가능하게 해줍니다.

확실히 이전 보단 이미지 생성 퀄리티가 높아졌습니다.

자 이제 각 성격 유형별 평균 얼굴을 구하면 됩니다. 그러기 위해선 성격 유형별로 연예인 이미지를 역변환(inversion)해야 했습니다.

역변환을 통해 이미지를 벡터로 임베딩 시킬 수 있는데요. GAN의 경우 이 임베딩 벡터는 latent code를 의미합니다.

두 이미지 사이의 latent code를 합성후 생성자를 통해 이미지를 생성할 수 있습니다. 결과 이미지들은 아래와 같습니다.

중요한 건 성격별 평균 얼굴입니다. 제 생각은 이랬습니다. latent code의 평균값을 구하고 이를 다시 생성자를 통해 합성한다면, 성격별 평균 얼굴이 구해진다!

그렇게해서 평균 얼굴을 구해봤습니다!

남자 MBTI

여자 MBTI

그런데 예상치 못한 문제가 있었습니다. 이 역변환 과정이 상당히 시간이 오래 걸린다는 겁니다.

저희가 원한건 유저가 사진을 업로드하면, 그 사진과 위 평균 열굴을 합성해서 평균 얼굴이 계속 바껴지는 것이었습니다.

그러기 위해선 실시간으로 역변환이 가능해야 했습니다.

PSP 

PSP(pixel2style2pixel)는 이미지를 스타일로 변환한 후 다시 이미지로 변환하는 방법입니다. 기존 GAN의 경우에는 임의의 noise에서 이미지를 생성했습니다.

저희 과제는 성격 유형별로 이미지가 주어지면 이 이미지들을 스타일 차원(latent code)에서 합성하는 것 입니다. 그래서 이미지를 스타일 차원에서 바라볼 필요가 있었죠.

기존 방식의 알고리즘을 사용할 경우 이미지마다 최적화 과정이 매번 일어나 시간이 많이 소요 됐습니다. 이를 해결하기 위해 도입한 기술입니다.

인코더와 맵핑 네트워크를 제외한 다른 부분은 기존 StyleGAN2의 구조와 같기에, 기존에 학습한 지식을 활용할 수 있었습니다.

구체적으로는 styleGAN2 + ada + freezeD + freezeG를 통해 학습했던 network를 pretrained model로 이용하였습니다.

위 그림에서 보듯이 이미지를 입력으로 받습니다. 이 이미지에서 해상도별로 feature map을 style에 맵핑 시킵니다.

기존 styleGAN에서는 입력이 latent vector에, 맵핑 네트워크는 fully connected layer 인 것과 차이가 있습니다.

styleGAN2에서 이미지 역변환 과정은 이미지 마다 일일이 최적화 과정을 거쳐야 했습니다.

하지만 pSp는 인코더(Encoder)를 거치면 style이 바로 얻어지기에 연산 속도가 빠릅니다. 

 

최종적으로는 styleGAN2 생성자를 기반으로한 pSp 네트워크를 채택했습니다. 학습 방법은 ada와 freezeD, freezeG 모두 사용하였지요.

 

실시간 성격 변화에 따른 얼굴 형태 변화?

pSp를 이용하면 검사하는 와중에 실시간으로 이미지가 변화하는 것도 보실 수 있습니다.

성격 검사 문항은 각 항목마다 E와 I, N과 S, T와 F, P와 J를 구분해줍니다.

만약 위와 같은 과정을 거쳐 평균 E, I, N, S, T, F, J, P를 띄는 얼굴을 안다면 실시간 변화를 줄 수 있습니다.

여기서 알파벳은 MBTI를 구성하는 각 특징을 의미합니다.

E/I : 외향/내향

N/S : 직관/감각

T/F : 사고/감정

J/P : 판단/인식

남녀 각각의 특징은 아래와 같습티다.

 

특정 이미지를 넣고,  한 항목에서 E가 나왔습니다. 그러면 이 이미지를 좀 더 E(외향적)스럽게 변형시킬 수 있습니다.

E→N→T→P→E→N→T→J→I→S→F→P→I→P

로 성격 검사를 했다고 하면 아래와 같이 이미지가 실시간으로 변하는 겁니다.

위 과정은 베타 버전에선 보실 수 없습니다. 반응을 보고 추후 기회가 된다면 실시간 변화 기능도 구현해보고 싶네요.

 

후기

이번 MBTI 프로젝트에선 크게 4가지 파트가 있었어요.

 

설문지 작성 및 전체적인 스토리 라인 기획- 이소린 전임

UI/UX 디자인  – 정보라 대리

서버 구축 및 개발 – 지민철 사원, 이주영 사원

인공지능 관련 연구 개발 – 김도환 전임

 

모두들 고생 많으셨어요. 간단한 후기 인터뷰를 준비해보았습니다.

 

짧은 기간에 개발하여 완성도가 떨어지지만 한 번씩 테스트 해보셔도 재밌으실 거에요.

아래는 검사하러 갈 수 있는 링크입니다! 이상으로 긴 글 읽어주셔서 감사합니다.

다음번에 또다른 새롭고 흥미로운 R&D 파일럿 프로젝트로 찾아 뵙겠습니다.

MBTI 검사 테스트 하러가기

 


 

written by 김도환 전임 연구원

데이터 업계 고수와의 인터뷰 02 – 손진호 연구소장님

손진호 연구소장님

 

데이터 업계의 고수를 찾아 직접 인터뷰하는 컨텐츠! 그 두 번째 고수는 누구일지 기대가 되는데요! 인터뷰 두 번째 손님은 미소정보기술 회사의 손진호 연구소장님이십니다. 미소정보기술 회사는 데이터를 통해 BI 시스템 구축, 의료 정보 분석, 소셜 네트워크 및 텍스트 분석 등 여러 분야에서 왕성한 활동을 하는 빅데이터 전문기업입니다. 11명으로 구성된 작은 회사였을 때부터 145명의 건실한 데이터 전문기업으로 자리매김하는 모든 순간을 함께하신 손진호 연구소장님과의 인터뷰는 어떻게 진행되었을지 살펴보실까요?

 

      Q. 안녕하세요! 소장님. 인터뷰에 응해주셔서 감사합니다. 간단한 자기 소개 부탁드려도 될까요? 

안녕하세요! 만나게 돼서 반갑습니다. 저는 주식회사 클라크라는 국내 지게차 만드는 회사에서 10년 가까이 시스템 기획 등의 업무를 하다가 오래전 미소정보기술로 이직을 하게 되었습니다. 다양한 프로젝트를 20개 이상 진행하면서 실제 필드에서 많은 경험을 하였고 현재 미소정보기술 연구소장을 맡고 있습니다.

 

      Q. 그럼 미소정보기술 회사로 이직을 하신 건 10년 정도 되신거네요? 

그렇죠. 여러 회사 경력은 많지 않지만 한곳에 오래 있는 게 스스로 장점이라고도 생각합니다. (웃음) 그리고 현 회사에서 대기업과의 프로젝트를 많이 하다 보니까 실제 업무 경험을 많이 쌓게 된 것 같습니다. 

 

     Q. 전 회사에서 미소정보기술로 이직을 하게 된 건 어떻게 본다면 완전히 다른 분야로의 이직이라고 볼 수 있을 것 같은데요. 이직을 하실 때 데이터 분석 분야의 이해에 있어서 힘들진 않으셨나요? 

힘들었죠. (웃음) 힘들지만, 한편으론 다른 분야의 도메인을 이해하는 데 큰 발판이 된 것 같습니다. 처음부터 데이터 분석과 같은 분야만 집중했다면 오히려 기업들과의 협업이라던가 프로젝트 진행에 있어서 도메인을 이해하는데 어려웠을 것 같습니다. 반대로 저는 실무를 하고 기획을 했던 경험들이 전혀 데이터에 거부감없이 장점이 됐다고 생각합니다.

 

     Q. 실무 경험이라면? 

타 기업들과 협업을 하게 될 때 기업들의 업무 패턴이나 이런 것들을 전반적으로 이해하고 일을 진행하는 것과 아닌 것의 차이는 크거든요. 그런 부분에서 도메인의 이해에 있어서 큰 충돌이나 어려움이 없었다는 게 장점인 것 같습니다. 

 

     Q. 솔루션 기획, 구축.. 그리고 더해서 인공 지능 분야를 공부하셔야 되는 부분에 있어서는 힘들지 않으셨나요?

이 부분은 매번 말하는 부분인데요. 코딩 레벨이나 스크립트가 가장 중요한 부분이라고는 생각하진 않아요. 데이터 분석을 잘해야 인공지능 모델도 잘 나온다고 생각해요. 데이터 분석을 오래 하고 친숙해지다 보니 인공지능 분야도 빨리 습득하고 업계에서 자리를 잡게 된 것 같습니다.   

   

     Q. 개발 PM 하시면서 20여개의 프로젝트를 도맡아 하셨다고 하셨는데, 가장 인상 깊었던 프로젝트는?

최근에 했던 대형 플랜트 건설사의 개발 요건이 기억에 남네요. 시공을 중심으로 전반적인 플랜트 건설을 맡게 되는 거대 프로젝트인데요. 요건은 이러한 플랜트도 여러 EPC 사의 제안요청서를 받아 가장 좋은 제안을 선택하게 되며 이러한 제안요청서는 PDF 기준으로 파일당 200~400페이지에 달하는 2,000개 이상의 PDF 문서로 전달받게 됩니다. 과거 이를 위해 설계 엔지니어가 한 달 동안 수작업으로 검토하고 분석하여 제안하더라도 1곳만을 선정하니 치열하기도 하고 많은 인력과 비용이 발생하지요. 그런데 문제는 경력자가 사라지면 이러한 노하우나 지식도 사라진다는 거예요. 지식은 사람이 가지고 있고 은퇴나 이직 등 다양한 사유로 다시 시작하고 사라지고 하니, 기업과 지식도 사라진다는 겁니다. 이러한 지식을 담고 제안 요청서를 단기간에 파악할 수 있는 플랫폼을 제안해달라고 하여 연구를 하였고 연구원들과 데이터 분석을 시작, 국내 12개 이상의 기업, 해외 솔루션 대기업 두 군데와 경쟁하여 1차 통과하였으며 마지막에는 해외 대기업들과 경쟁한 끝에 선정된 것이 가장 인상 깊었습니다. 기술도 기술이지만 문제 해결을 위해 치열한 설득과 증명을 한 것이 가장 기억에 남아요.

 

     Q. 쟁쟁한 대기업들과 경쟁에서 이기게 된 노하우가 있을까요? 

꼭 가지고 있는 기술만 제시하고 구축을 하려고 하면 될 수 있는 사례가 많이 없습니다. 도전해야만 만들 수 있고 진행할 수 있는 기회들이 있다고 생각해요. 첨언하자면, 이러한 프로젝트 경험들이 기술 연구소와 결합하면 좋겠다는 생각을 하고 있습니다. 저는 도전적이고 빨리 변화되고 연구개발도 빠르게 순환을 할 수 있게 하는 게 제가 연구소장으로써 추진하는 방향입니다. 

 

     Q. 프로젝트를 진행하실 때 결과적으로 좋은 일도 있지만 갈등도 있을 것 같은데요. 내부, 외부적으로 어떻게 극복하시나요? 

제가 정답은 아니겠지만, 저는 ‘협상’이라고 표현을 합니다. 프로젝트에서는 절대 갑, 절대 을은 없다고 생각해요. 협상해서 합리적인 쪽으로 만들어내면 문제가 없습니다. 하지만 한쪽으로만 고집을 부리게 되면 망하는 케이스가 되는 거라고 생각해요. 서로의 상황을 이해하면서 이루어지는 협상과 협력이 중요합니다.  내부적으로 본다면, 짧은 시간에 완수한다거나 업무 부담과 같은 것들인데요. 회사에는 멘토 제도가 있어서 멘토와 멘티 프로그램으로 서로 문제가 생겼을 때 보완해줄 수 있고 든든한 조력자가 될 수 있기 때문에 업무적 갈등을 최소화할 수 있는 좋은 제도라고 생각해요.

 

     Q. 추가적으로 뜻깊었고 다음에 더욱 개발하고 싶은 프로젝트가 있었나요? 

과거 솔루션 등 가장 뜻깊었던 기억은 메디 허브라는 솔루션입니다. 전 세계에서 발행되는 PUBMED의 정보를 기준으로 MESH TERM이라는 주요 병명과 키워드 간을 분석하고, 의료 논문의 발행 수를 보면서 질병에 대해 한눈에 볼 수 있게 만든 프로그램인데요. 이는 간단하게 의료 연구에 필요하다는 교수님의 의견으로 만들기 시작했습니다. 현재는 미소정보기술 스마트 CDW안에 항상 제공되는 기능으로 소개됩니다. 하지만 이런 부분이 다음에는 공개형으로 환자와 보호자에게 필요한 정보로 제공되면 좋겠습니다. 즉 인공지능 시대에 자동으로 번역되고 새로운 신약의 논문이 어떻게 발행되고 어느 나라에서 관계형 치료나 신약의 관계 등을 알 수 있게 했으면 합니다. 이러한 신약의 정보나 트렌드 정보는 폐쇄적인 것이 큰 문제인데요. 질병을 가지게 되는 환자나 보호자에게는 가장 소중한 시간에 가장 필요한 정보일 수도 있어서 무료로 제공하고 서로 정보를 공유할 수 있는 커뮤니티 정보 App을 만들고 싶네요. 

 

Smart CDW 일부

처: 미소정보기술 웹사이트 (http://www.misoinfo.co.kr/#/misoinfo/solutionDataCdw.do)

 

      Q. 말씀하신 것처럼 개인정보 문제나 이런 제한이 풀리게 되면 하시고 싶은 프로젝트가 있으신가요? 

의료분야는 Closed Domain이지만 다이아몬드와 같은 데이터들이 많다고 생각해요. 이 부분들이 개인정보 문제로 사용될 수 없는 게 안타까운 것 같습니다. 추후에 이런 제한들이 다소 완화된다면 암 발병에 대한 예측과 같은 것들을 인공지능으로 솔루션을 구현하고 싶습니다. 빅데이터를 기반으로 정확도가 더 높아지고 통계적인 접근보다 인공지능 기법으로 질병 예측, 스테이지 관리 같은 것들을 개발했으면 좋을 것 같습니다.

 

     Q.  앞서, 스마트 CDW를 언급하셨는데요. 혹시 의료 분야와 같이 전문 분야를 이해하시고 프로젝트를 진행 하실 때 어려운 점은? 

사실 저는 학부는 컴퓨터 전공, 석사는 물류 시스템, 박사는 공학을 전공했습니다. 다방면으로 공부해서 그런지 다른 도메인 지식을 받아들이는 데 있어서 큰 어려움이 없었던 것 같아요. 금융이나 의료, 제조, 물류 등 베이스적으로 경험을 많이 하게 되면 지식이 폭도 넓어지고 타 분야를 이해하는 데 있어서도 도움이 된다고 생각합니다. 

 

     Q.  2017년 데이터 분석 기법을 활용한 수요예측 모형을 개발하여 서비스 부품 저장위치를 선정하는 논문을 쓰셨는데요. 현재 전자 상거래 웹사이트의 수요 증가와 맞물려 창고 및 허브 관리가 중요시되는 상황에서 서비스 부품이 아닌 상품에 대한 솔루션 개발 계획은 있으신가요? 

요즘에는 리테일이 활발해서 물류가 빨리 배송되는 최적화에도 고민을 많이 하고 있습니다. IBM의 인공지능인 왓슨(Watson), 그리고 One Network의 네오(Neo)등이 물류 공급망 효율을 향상할 수 있게 강화학습을 통한 실시간 의사 결정이 가능한 세상입니다. 과거에는 최적의 위치를 선정하여 작업 효율 개선이나 프로세스 개선을 중심으로 분석했다면, 요즘은 딥러닝의 시대로 강화학습, GAN 등을 통한 예측 방식이 발전되었는데요. 미소정보기술 연구소도 강화학습기반의 풀필먼트 수요 예측 시스템을 준비하고 있습니다. 일반적으로 Markov Decision Process에서 정의된 각 상태(state)의 이전(Transition)에서 행동에 대한 보상을 최대화하는 방향으로 학습하고, 주어진 상태를 바탕으로 Agent는 action을 취하며 action이 environment의 입력으로 새로운 state와 reward를 반환하여 수요예측의 강화 효과가 있고요. 이는 SCM망의 재고 효율화에 강화학습을 통한 풀필먼트 수요 예측반영을 통한 SCM 망내의 풀필먼트가 진행되는 재고의 효율화 강화에 집중하면서, 보다 확장적인 인공지능 기반의 수요예측 시뮬레이션 플랫폼 개발을 목적으로 합니다.

 

     Q.  텍스트 분석, 버즈 분석과같은 솔루션도 개발을 하셨더라구요.

맞습니다. 딱히 수주가 있어서 시작한 솔루션은 아닙니다. 버즈 분석과 같은 솔루션을 개발한 건 빅데이터를 하는 상징성도 있었습니다. 텍스트 데이터를 수집하다보면 트렌드를 볼 수 있고 비슷한 추세로 따라가는 것도 볼 수 있습니다. 현재 미소정보기술에서는 15억 건 이상의 데이터를 운용하고 있고 매일 10만~ 20만 건 정도 수집하면서 정제 및 학습 데이터까지 만들고 있는 업무를 하고 있습니다. 다년간의 경험으로 최적화도 가능해져서 현재는 큰 부담 없이 빅데이터 수집, 정제, 저장에 저희만의 노하우가 생겼습니다. 

 

     Q.  요즘에는 이미지 관련한 인공지능도 많이 바이럴되고 있는데요. 혹시 인공지능이 결합된 이미지 합성과 같은 솔루션도 진행 중인게 있나요? 

사실 이미지 분석은 그전까지는 원천기술이 충분하지 않았고 시스템화시키기에는 아직 이르다고 판단했었는데요. 마침 올해는 트렌드도 맞는 것 같아서 사업에 진행 중에 있는데 학습 데이터를 만들고 학습시키고 분류 판단하는 솔루션을 상반기에 스마트 AL이라는 이름으로 출시될 예정입니다. 


Q. 굉장히 많은 분야에서 개발이 진행되고 있네요. 그렇다면 미래에는 이 업계에서 어떠한 일들을 해나가고 싶은지 여쭤봐도 될까요?

저는 인공지능 쪽에 계속 연구를 하고 싶어요. 이번에 가장 똑똑한 가상 비서를 만드는 프로젝트도 맡게 되었는데요. 제조기업의 가상 비서를 만드는데, 정보를 빨리 찾아서 “이 시간에 교통량이 어때?”라고 할 때 자체적으로 검색해주고 실질적인 정보를 주는 가상비서를 만드는게 목표입니다. 기업과 기관에 들어가게 돼서 이러한 전문화된 비서들이 활동을 하면 업무적으로나 여러 면에서 편해지지 않을까 싶습니다. 사람들이 ‘아이언맨’의 자비스를 보면서 나만의 가상비서가 있으면 너무 좋겠다라고 생각하시는데요. 저는 이러한 ‘나만의 전문화된 가상비서’를 만드는게 5년~10년 안에 만드는 게 저의 목표입니다.  

 

제조현장 특화 인공지능 비서 

출처: 미소정보기술 웹사이트 (http://www.misoinfo.co.kr/#/misoinfo/viewPrNewsDetail.do)

 

     Q. 마지막으로 데이터 업계에서 선두주자로 있으시면서 요즘 데이터 업계쪽으로 관심있으신 분들에게 해주실 조언이나 한말씀 부탁드리겠습니다.  

저는 IT 전문 서적보다는 TED라는 책을 꼭 읽어보시라고 추천해 드리고 싶어요. 유명한 교수나 IT 전문가들이 어떻게 발표하는지 보셨으면 좋겠어요. 새롭게 진입하시는 분들이 자기표현을 잘하셨으면 좋겠는데, 내가 이러한 프로그램을 짰고 Tensor에서 증명했고, 인공지능을 알고 있다는 전반적인 것들을 표현할 수 있다면 큰 장점이며 빨리 성장할 수 있다고 생각해요. 표현력. 그게 가장 큰 무기라고 생각합니다. 

 

 

<우측 손진호 연구소장님, 좌측 SPH 이소린 전임> 

 

‘내가 가진 지식과 기술을 다른 사람들에게 올바르게 표현할 수 있어야 한다’라는 말이 와닿네요. 특히나 마지막에 말씀하신 ‘나에게 특화된 인공지능 비서’는 일반인들에게도 공개되어 많은 사람들에게도 큰 도움이 되는 인공지능 기술이되면 좋겠습니다. 바쁜 와중에 시간 내주셔서 감사합니다. 이상 손진호 연구소장님과의 인터뷰였습니다!

    

 

*본 인터뷰는 코로나19 방역에 준수하여 진행하였으며 사진 촬영 시에만 마스크를 내려 촬영하였습니다.

최우수상 받은 데이터 컨설팅팀, 숨은 뒷이야기!

서울시 빅데이터 캠퍼스 공모전 최우수상 수상!

참여부터 수상까지의 숨은 뒷이야기

 

  • 소개
  • 공모전 주제 선정 
  • 공모전 기획  
  • 데이터 수집 및 ETL 
  • 데이터 분석
  • 데이터 분석 결과 – 어린이 보호 구역으로 지정되어야 하는 3곳!  
  • 잠깐! 토막 소식
  • 아쉬운 점 및 챌린지 
  • 수상 결과에 대한 의견 및 소회

 

  • 소개

서울시 빅데이터 컨퍼런스에서 김도환 전임 연구원의 발표 모습

서울시 빅데이터 컨퍼런스에서 김도환 전임 연구원의 발표 모습

안녕하세요! SPH 데이터 컨설팅팀이 이번 2020 서울시 빅데이터 캠퍼스에서 주최한 빅데이터 공모전에서 최우수상을 수상하였습니다. 이번 공모전은 주제 선정에서부터 수상까지 의미있고 재미있었던 부분들이 많았는데요. 공모전 주제 선정에서부터 수상까지 SPH 데이터 컨설팅팀의 전문적인 분석 과정과 노력등을 공유해 드리려고 합니다.      

 

  • 공모전 주제 선정

최종으로 선정된 주제: 新 어린이 보호구역 제안 

서울시 빅데이터 캠퍼스에서 주최한 공모전은 예전부터 관심이 많이 있던 공모전입니다. 다른 주최사와 달리 사용 가능한 데이터, 즉 빅데이터를 기반으로 분석을 자유롭게 할 수 있다는 점에서 꼭 참여하고 싶었습니다. 주제 선정에 있어서는 꽤나 고심을 많이 했는데, 그 이유는 SPH 데이터 컨설팅팀은 사회 전반에 걸쳐 여러 주제에 관심이 많기 때문입니다. 예를 들어, ‘흡연 구역 설정’, ‘최적의 따릉이 구역’처럼 사회적으로 충분히 도움이되는 분석 결과를 내놓는다면 좋겠다라는 생각을 하고 있었습니다. 또한 양질의 데이터의 유무가 중요하다고 생각하는데요. 분석하고자 하는 주제가 굉장히 좋아도 데이터가 충분하지 않다면 분석 결과의 신뢰도에도 영향을 미치기 때문입니다.

저희는 어린이 교통사고에 관한 뉴스들을 다수 접하면서 ‘어린이 보호구역’에 대해 관심을 갖게 되었고 관련 데이터가 서울시 및 여러 기관에서 제공하는 것을 확인한 뒤에 최종으로 이 주제를 선정하게 되었습니다. 또한 현재 어린이 보호구역은 어떠한 특징과 법안이 있는 지 살펴 보았는데, 생각보다 허점이 있다는 것을 알게 되면서 데이터 분석 및 기획을 시작하게 되었습니다. 

 

  • 공모전 기획 

프로젝트 소개부터 결과까지의 과정 

 

빅데이터를 이용한 분석도 중요하지만 데이터 분석가로서 중요한 역량 중 하나인 상호 커뮤니케이션, 즉 설득력있는 기획을 어떻게 진행할 것인지에 대해 고민을 했습니다. 아무리 분석을 잘해도 사람들이 이해하기 쉽지 않다면 분석한 결과의 가치가 많이 떨어지기 때문에 분석에 ‘스토리’를 담아 PPT에 녹여냈습니다. 

이 주제를 선정한 배경, 사회적 상황, 어린이 보호구역의 현재 법률적 효력 등 사회적 이슈와 現 어린이 보호구역 기준의 변화에 대한 긍정적인 결과 순으로 PPT에 담아내려 노력했습니다. 또한 ‘당위성’이 중요한 부분이라 생각하였습니다. 저희가 특정 데이터를 수집 및 이용한 이유, 데이터 분석에서 머신 러닝 모델을 이용한 이유와 결과물에 대한 심도있는 해석까지 포함한 내용이 들어있습니다 (아래 발표영상 링크 참고). 빅데이터 분석으로 끝나는 게 아닌, 적재적소에 이 분석 결과가 사용되길 바라는 마음을 담아내어 기획을 했습니다.  

   

  • 데이터 수집 및 ETL

어린이 교통사고 현황 [출처: TASS 교통사고 분석 시스템] 

어린이 교통사고 데이터는 TASS에서 지난 6년 간의 데이터를 수집할 수 있었기 때문에, 꽤 양질의 데이터를 모을 수 있었습니다. 또한 서울시 빅데이터에서 제공하는 SKT 유동인구 데이터를 통해 10대 유동인구의 이동 동선을 확인할 수 있었으며 초등학교 및 유치원, 그리고 어린이 보호구역 현황은 서울시 열린 데이터 광장(https://data.seoul.go.kr)에서 수집했습니다. 

‘데이터 분석의 꽃은 전처리’라는 말이 있을 정도로 저희 SPH 데이터 컨설팅팀은 데이터 전처리에 많은 노력을 기울였습니다. 어떠한 데이터를 추출하고 필요하지 않는 데이터는 어떻게 보관할 것이며, 중요한 데이터 중 어느 변수를 원 핫 인코딩 처리 할 것인지, 그리고 결측치 처리 및 Outlier 처리에 관련하여 많은 노력을 들였습니다.  

 

 

  • 데이터 분석

데이터 수집부터 분석 결과까지의 과정을 시각화한 차트

지도 학습 및 비지도 학습 등 여러 분석 방법들이 있는데 저희는 ‘어린이 교통사고 건수’라는 Target 값이 있었기 때문에 지도 학습으로 진행하였습니다. 또한 여러 전문적인 머신러닝 회귀 모델들이 많았는 데, 이번 분석에서는 머신러닝의 모델을 이용했습니다. 모델 중 최적 모델 선택에 있어서는 MAE (Mean Absolute Error)을 기준으로 가장 낮은 오류 값을 가진 모델이 성능이 좋은 모델이라 판단하였습니다. 저희의 분석 결과로는 10개의 모델 중 Random Forest Regressor가 가장 최적의 모델로 선정되었습니다.    

Random Forest Regressor는 앙상블 회귀 모델로써 MAE가 0.08의 가장 낮은 오차값을 가지고 있습니다. 이 모델이 선정한 중요 변수와 Pearson Correlation에서 중요 변수로 제시된 변수들은 ‘10대 유동인구’,’주변 유치원 수’, ‘주변 초등학교 수’입니다.  (아래 사진 참고)

 

머신 러닝 모델이 선택한 중요 변수들 및 필터링 과정

 

저희 공모전 주제는 데이터 분석 관점이 두 가지로 나뉩니다. ‘현황 분석’과 ‘예측 분석’. 현황 분석과 예측 분석으로 나뉜 이유는 1.현재 문제점을 조금 더 정밀히 파악하고 어린이 보호구역 기준의 미흡함에 대해 경각심을 주기 위함2.현재는 알 수 없지만 예측을 통해 머신 러닝 분석 결과에 기반하여 미래 사고 위험도를 알려주기 위함이었습니다. 

현황 분석은 데이터 분석을 통해 알게된 중요 변수들을 통해 필터링을 하여 어린이 보호구역으로 설정되진 않았지만 설정되어야 하는 곳들을 나열했습니다. 중요 변수들은 ‘초등학교 수’, ‘유치원 수’, ‘10대 유동인구 수’였는데 이 값들에 특정 기준치 이상일 경우 현재 어린이 보호구역으로 선정되어야 하는 구역을 나열했습니다. 특정 기준치는 ‘10대 유동인구 수’는 상위 10%값, 유치원 수는 1곳 이상, 초등학교 수는 2곳 이상으로 이 모든 기준치에 부합되는 장소인데 어린이 보호구역으로 선정되지 않았으며 사고 수가 5건 이상인 경우인 장소는 로드맵을 통해 실제 어린이 보호구역으로 어느 장소까지 보호되는지 살펴보았습니다. 

예측 분석은 말 그대로 머신러닝 알고리즘이 예측한 사고 건수입니다. 예를 들어 사고가 1건이 일어난 장소들을 Test Set(216건)으로 선정하여 현황 분석때 이용한 머신러닝 모델을 통해 이 장소들이 향 후, 얼마나 사고 건수가 상승하는 지 살펴봤습니다. 그 중 43곳은 사고 발생 건수가 2건 이상이었으며 이 점을 토대로 어린이 교통 사고가 일어날 확률이 높으니 지정이 반드시 필요하다라는 점을 피력했습니다. 

 

  • 데이터 분석 결과 – 어린이 보호구역으로 지정되어야 하는 3곳!

빅데이터 및 AI를 통해 알아낸 어린이 보호 구역 지정으로 시급한 TOP3 지역

데이터 분석 결과 중 현황 분석을 통한 결과를 보여드리자면, 가장 어린이 보호구역으로 지정되어야 되는 시급한 곳은 1. 석촌 호수로 잠실 새내역 사거리 2. 내발산동 강서로 47길 3. 구로구 개봉동 179-46으로 나타났습니다. 어린이 교통사고가 5건 이상 발생되며 초등학교 및 유치원이 주변에 위치하며 10대 유동인구가 상위 10% 이상 존재하는 장소임에도 불구하고 어린이 보호구역으로 지정되지 않은 곳입니다.

어린이 보호 구역 지정으로 시급한 TOP3 지역의 실제 사진 및 사고 현황

석촌 호수로 잠실 새내역 사거리인 경우는 반경 400m 지점까지 어린이 보호구역이 없었으며, 구로구 개봉동 179-46과 내발산동 강서로 47길 3은 어린이 보호구역이 존재하나 그 주변에서 일어나는 어린이 교통사고가 존재하는 것으로 보입니다.  현재 법령으로는 볼 수 없지만 빅데이터 및 AI를 통해서 찾을 수 있는 ‘사각 지대’입니다.  (자세한 분석 내용은 아래 자료 공유를 참고해주세요)

 

  • 잠깐! 토막 소식 

어린이 보호구역 지정에 대한 염원이 서울시에 닿았는지, 최근 잠실 학원 사거리에 기존에 없던 어린이 보호구역 및 30km 속도 제한 과속 카메라가 설치되었습니다. 저희 데이터 분석 결과였던 어린이 보호 필수 구역 1위로 선정된 곳에 CCTV 설치 및 어린이 보호 구역으로 지정이 되어 이 근방의 어린이 교통사고 예방에 긍정적인 변화가 있을 것으로 예상됩니다! 아래 사진은 SPH 조영만 차장님께서 어린이 보호구역 지정에 대한 기쁜 마음을 담아 공유해주신 사진입니다.

최근 잠실 학원 사거리에 설치된 어린이 보호구역 및 과속 카메라 모습

 

  • 아쉬운 점 및 챌린지 

서울시 빅데이터 캠퍼스에 참여하게 되면서 느낀 점 중 아쉬웠던 부분은 데이터의 불균형입니다. 예를 들면 서울시 빅데이터 캠퍼스이지만 사실상 대한민국을 대표하는 빅데이터 캠퍼스이기 때문에 분석 주제가 서울시로 국한되지 않습니다. 하지만 서울시 외의 데이터들은 잘 갖추어있지 않거나 양질의 데이터가 많지 않다보니 자연스럽게 분석 타겟이 서울 시내로 맞춰지는 게 조금 아쉬운 부분이었습니다. 대한민국 내의 행정에 관련된 데이터들이 한 곳에 잘 정리되어 있다면 소외된 지역에 관한 효율적인 빅데이터 분석이 가능하지 않을 까 싶습니다.   

 

  •   수상 결과에 대한 의견 및 소회

2020년 저희 데이터 컨설팅팀이 사회 이슈에 대해 열심히 분석하고 관심을 갖게 된 것에 대한 ‘선물’이라고 생각합니다. 다른 공모전 팀들도 분명히 필요한 뜻깊은 분석을 하였으며 공모전 참여만으로도 다른 팀들의 분석 인사이트를 보면서 배울 점이 많았습니다. 서울시 빅데이터 캠퍼스 사옥에도 방문해보고 공공 데이터가 어떻게 관리되는 지 배우는 시간이었습니다. 또한 저희 뿐만 아니라 많은 참가자들이 빅데이터 분석에 크게 관심을 갖는 것을 볼 때, 미래에는 정말 빅데이터를 통해 과거보다 더 도움이되는 정책들이 나오지 않을 까 기대됩니다. 저희 SPH 데이터 컨설팅팀은 사회적 이슈 및 여러 공공 사안을 비롯하여 흥미로운 주제들로 인사이트있는 분석을 가지고서 다시 찾아뵙겠습니다. 감사합니다.

  

서울시 빅데이터 캠퍼스 최우수상 시상식 

Blog written by 이소린 전임 연구원

 

김도환 전임 연구원 발표 영상 및 분석 자료 다운로드: 


SPH는 CARTO, Google Maps, SuperMap 등 다양한 케이스에 적용될 수 있는 다채로운 제품군을 보유하고 있으며 고객의 사례에 꼭 맞는 무료 세미나 및 개별 컨설팅을 제공하고 있습니다. 각 케이스에 맞춰 더욱 자세한 이야기를 나누고 싶으시다면 여기에서 문의 주시길 바라며, SPH에서 발행하는 GIS/로케이션 인텔리전스 관련 최신 소식을 받아보고 싶으신 분들은 페이스북 페이지 또는 뉴스레터를 구독해 주시길 바랍니다. 감사합니다.

데이터 업계 고수와의 인터뷰 01 – 박용재 데이터 분석가님

박용재 데이터 분석가님

 

 

SPH 데이터 컨설팅팀에서 새롭게 선보일 콘텐츠. 바로, 데이터 업계에 계신 선배분들을 찾아뵙고 인터뷰를 진행하는 것인데요! 첫 시작은  GIS United, SK 플래닛, 현대 카드 등을 거쳐 현재 라인 플러스(2013년 설립된 네이버의 자회사로 LINE의 글로벌확장을 함께하고 있는 회사)에서 데이터 분석가로 근무하고 계신 박용재 님입니다. 박용재 님은 첫 직장인 GIS United에서 다년간의 공간 데이터 분석 경험을 쌓으셨습니다. 공간 데이터뿐만 아니라, 커머스를 비롯한 다양한 도메인에서의 데이터 분석 경험을 가진 박용재 님은 말 그대로 데이터 분석계의 10년차 ‘고수’이십니다.

 

감사하게도 박용재 님께서 인터뷰에 응해주셨습니다. 데이터 분석 업계의 선배님을 찾아뵙는 건 이번이 처음이네요. 매우 떨리는 한편, 더 배울 수 있다는 점에서 설렙니다. 

 

저희가 찾아간 곳은 과천에 있는 아늑한 카페입니다. 카페에서 진행하게 된 첫 번째 인터뷰. 박용재 님을 만났습니다. 따뜻하고 선한 미소가 인상적이었습니다. 젊은 얼굴에 벌써 두 아이의 아빠라는 박용재 님. 인터뷰에 대한 사전 답변도 상세히 보내주셨고 인터뷰 내내 친절하고 상냥하게 대해주셔서 정말 감사했습니다. 

 

친절한 선배님과의 인터뷰! 어떻게 진행되었을까요? 차근차근 살펴보시죠!

 

Q. 안녕하세요! 박용재 분석가님. 인터뷰에 응해주셔서 감사합니다. 현재 굴지의 기업에서 데이터 분석가로 활약하고 계시는 데요. 데이터 분석을 전공하신건가요?

A. 안녕하세요. 반갑습니다. 처음에 저는 데이터 분석을 한다는 생각은 하지 못했습니다. 원래 전공은 건축학이었습니다. 우연한 기회로 ‘건축 기획’이란 수업을 듣게 되었습니다. 이 수업에서 지도를 이용한 공간 분석이 포함되어 있었고, 그때 부터 관심을 기울이기 시작했던 것 같습니다. 데이터를 재료로 삼아 시각적으로 인상적인 무언가를 만드는 게 좋았습니다. 하다 보니 이게 데이터 분석이고, 빅데이터고, 데이터 과학이고.. 그런 영역이었습니다. 어떻게 보면 커리어를 우연하게 시작하게 된 것 같습니다.

 

Q. 공간 분석에서 데이터 분석의 첫 발을 디디셨다는 게 흥미롭습니다. 그렇다면 공간 분석에서 더 넓은 분석 분야로 넓히게 된 계기가 있을까요?

A. 공간 분석이 제일 많이 쓰일 거라 예상된 분야는 상권분석이었으나, 위치 정보만으론 한계를 느꼈습니다. 원래는 위치 정보만으로 공간 분석을 진행했죠. 사람들이 공간상에서 비슷한 특징이  있는 곳을 찾아간다는 전제 조건하에 이루어진 분석입니다. 하지만 SNS가 발달한 요즘 시대엔 이 전제가 성립하지 않게 됐어요. 위치상 아주 동떨어진 곳이라도 SNS 정보가 있으면 사람들은 방문합니다. 그렇기에 전통적인 위치 정보만으로 하는 공간 분석에는 한계가 있다고 판단했습니다.

 위치 정보가 유의미하게 쓰일 수 있는 영역은 다양하게 존재하긴 합니다. 가령 교통사고 분석과 같은 곳이죠. 하지만 앞으로 공간 데이터뿐만 아니라, 공간 분석이 메인이 아니라 하나의 부분이 되어서 SNS 데이터를 포함한 다양한 데이터를 추가해서 분석하는 게 필요하다고 생각합니다.

 

Q. 공간 분석에서 더 넓은 분야로 시야를 넓히셨을 때 가장 힘들었던 부분이 있을까요? 

A. 분석의 단위를 ‘공간’에서 벗어나는데 2년이 넘게 걸린 것 같습니다. 분석의 기준을 유저 단위로, 서비스 단위로, 기능 단위로 분석의 기준을 자유롭게 오갈 수 있어야 하는데, 도메인이 무엇이든 ‘공간 단위로 집계하는’ 것을 1순위에 놓는 사고를 유연하게 만드는 게 가장 어려웠습니다. 

 한 편으로는 개인적으로 성장은 스스로 불편한 상황을 편할 때까지 견디는 과정에 있는 거 같다는 생각을 많이 하게 되었습니다. 지금도 새로운 걸 배우면 처음에 너무 와 닿지 않아서 힘든데, 어느 순간 익숙해지고 그 사안에 대해 편하게 말하게 될 때 좀 더 성장했다고 느끼게 됩니다.

 

Q. ‘성장은 스스로 불편한 상황을 편할 때까지 견디는 과정’이라는 말이 와닿습니다. 그렇다면 현재 데이터 분석가로써 하고 계신 직무는 무엇인가요?

A.  현재 라인 플러스에서 서비스 KPI 관리 및 데이터 분석을 맡고 있습니다.

 

Q. 서비스 KPI 관리? 구체적으로 어떤 업무일까요? 

A. 서비스 기획실 소속으로 유저들이 글로벌 메신저 라인의 어떤 서비스를 얼마나 잘 이용하는지, 각 서비스별 성과 지표를 정의하고 분석하는 일 등을 하고 있습니다. 각 서비스 팀의 데이터 엔지니어들과 협업하는 일도 많습니다.

이전에 데이터 분석가로 일했을 때와는 좀 다른 측면도 있습니다. 마케팅, 사업 쪽에서 요청받는 업무에 대해 퍼포먼스를 개선하는 등 이미 진행된 내용에 대해 서포트하는 경우가 많았습니다. 현재는 서비스 기획실에 있다보니 새로운 서비스가 런칭하는 단계부터 협업하면서 분석을 진행하고, KPI 관리 측면에서는 PM 역할로 다른 조직에 협업을 요청하는 일도 종종 있습니다.

 

Q. 현재는 서비스 KPI 관리나 더 넓은 분야의 데이터 분석을 하고 계시는 데, 기회가 되신다면 집중하고 싶은 분석 분야가 있으실까요?

A.  만약 지도와 관련해서 새로운 것을 시도해본다면 지도 제작에 관심이 있습니다. 흔히 말하는 street 레벨의 지도가 아닌, 데이터 분석 결과가 반영된 지도입니다. 분석 결과가 시각화로 지도에 잘 녹여져야겠죠. 지도만 보아도 사람들이 이해하기 쉽고, 각 영역에 맞는 편의를 제공할 수 있는 그런  지도를 만들어보고 싶습니다.

 

Q. 조금은 어려운 질문일 수도 있는데요(웃음). 데이터 분석가(과학자)로서 중요 역량을 다섯 가지로 나누자면 문제 정의, 기술력, 분석력, 해석력, 영향력이 핵심기술이라고 합니다. 혹시 이 중 개인적으로 데이터분석가로서 가장 중요한 역량이 있을까요?

A. 무엇이 더 우선한다는 것은 없을 것 같습니다. 분석가라는 롤은 전방위적으로 계속 확장해나가야 하는 그런 직업 같습니다. 현대 축구의 미드필더 같다는 생각을 많이 합니다. 패스도 웬만큼 해야 하고, 위치선정도 좋아야 하고, 수비도 잘해야 하고, 가끔 골 에어리어 근처에서 결정력도 지녀야 하고요. 다 어느 정도 할 줄은 알아야한다는 점에서 경력이 쌓이더라도 해결해야 할 점이 많다고 생각합니다. 저는 필요한 역량을 꼽아보자면, 문제 정의 + 기술력 + 창의력&모델씽킹 + 커뮤니케이션이라고 생각합니다.

 

Q. 데이터 분석가의 중요 역량에서 ‘문제정의’는 어떤 의미일까요?

A. 분석 프로젝트마다 똑같은 주제일지라도 똑같은 방식으로 풀 수 있는 문제는 하나도 없습니다. 그 케이스에 맞는 해결책을 찾을 수 있게 파고들어야 하는데, 이걸 하려면 일단 ‘잘 들어야’ 했습니다. 거기에 모든 힌트가 다 들어있습니다. 가끔 내가 공부한 머신러닝 모델이나 베스트 케이스를 종착점 삼아 프로젝트 착수를 하는 실수를 할 때도 있는데, 그 모델과 케이스는 내가 풀어야 할 문제와 전혀 맞지 않은 경우가 많았습니다. 결론적으로, 문제 정의는 ‘풀어야 할 문제를 제대로 인지하는 것’이라고 할 수 있습니다.

때로는 도메인 영역에 대한 이해를 간과하면 문제를 제대로 정의하지 못할 수가 있습니다. 11번가에 있을 때 였습니다. 리뷰분석을 해야 했기에, 아마존을 많이 참고했었죠. 하지만 당시 11번가 리뷰는 아마존 리뷰와는 많이 차이가 났습니다. 가장 큰 차이점은 11번가엔 양질의 리뷰 수가 부족하단 것이었습니다. 문제 정의를 달리 해야 했습니다. 현실을 직시해서, 좋은 리뷰어를 발굴하고 좋은 리뷰가 잘 쌓이는 것에도 초점을 맞춰야 했습니다.

 

Q. 도메인 영역에 대한 이해. 간과해서는 안되는 중요한 부분이네요. 그렇다면 요즘 많이 언급되는 딥러닝, 머신러닝 등.. 분석 기술력에 대해서는 어떻게 생각하시나요?

A. 모든 기술을 다 따라잡을 필요는 없지만, 필요한 기술은 지속적으로 습득해야 합니다. 그리고 그 기술이 ‘도구’라고 가볍게 생각해본다면, 굳이 가려서 배울 것이 없습니다. 기술력이 중요한 이유는 ‘속도’를 담보하기 때문입니다. 개인적으로 프로의 기준은 ‘같은 업무의 양과 수준을 제한된 시간 내에 혹은 더 빠르게 할 수 있는 것‘이라고 생각합니다. 다양한 기술에 능하면, 주니어가 2달 걸릴 일을 시니어는 2주 이내에 끝낼 수 있습니다. 더 나은 분석가는 더 높은 수준의 분석을 1주일에 끝낼 수 있을 것이고요. 물론 모든 기술을 다 배워야 한다는 것은 아닙니다. 같은 시간 내에 기술력을 키우는 것과 다른 역량을 키우는 것을 적절히 조절해야 하기 때문입니다. 그래서 기술력을 갖춘다는 것은, 수많은 기술 트렌드 중에 나에게 필요한 것이 무엇인지 골라내는 안목도 포함된다고 생각합니다. 이런 부분은 집중해서 살펴보기보다는, 평소에 심심할 때 구글링해보고 관심 가지는 게 가장 나은 방법인 것 같습니다.

 

Q. 필요 역량으로 언급하신 부분 중 창의력&모델씽킹은 어떻게 보면 가장 어려운 부분일 것 같습니다. 

A. 이 역량은 문제 정의 능력의 연장선일 수 있는데요, 제대로 이해한 내용을 평이하게 풀어내지 않는 것입니다. 그 조건과 문제 특징에 맞게 묘수를(적합한 모델 또는 인사이트) 찾는 것인데, 이 과정을 ‘어떻게 해야 한다’는 것을 정의하기는 쉽지 않은 것 같습니다. 논리적인 근거로 분석해온 과정을 바탕 삼아서, 한 단계를 ‘건너뛰는’ ‘점프하는’ ‘도약하는’ 느낌으로 방안을 제시하는 능력이라고 애매하게 설명할 수 있을듯합니다. 경험상, 화두처럼 한가지 생각과 주제를 풀릴 때까지  ‘곱씹듯이’ 고민을 많이 할수록 좋은 답이 나왔던 것 같습니다. Model Thinking은 내가 풀어나간 방식을 모형화 하는 것입니다. ‘머신러닝 모델’, ‘딥러닝 모델’이 아닌, 전체 프로세스 중 핵심적인 부분을 어떻게 정규화하여 비즈니스 모델 또는 엔지니어링 모듈처럼 다룰 수 있을까 생각해보는 것이 중요하다고 생각합니다.

말씀드린 모든 영역이 다 중요합니다. 그래서 이 부분이 직무에서 좀 도전적인 부분이라고 생각합니다. 그렇지만, 어느 순간이 되면 선택과 집중을 할 필요가 있습니다. 저는 그 과정 중에 있고요.

 

Q. 언급하신 여러 역량 중에 박용재 분석가님이 생각하기에 강점이 부분이 있나요? 

A. 저는 기술력은 앞으로 채워나갈 빈 곳이 많고요^^. 팀 플레이할 때에 아이디어를 많이 내는 편입니다. 비교적 기여를 많이 하는 부분인 것 같습니다. 제가 잘한다고 생각하는 부분이 있다면, 다른 영역의 아이디어를 또 다른 영역에 접목해보는 것이라는 생각이 듭니다. 이런 아이디어나 프레임은 이미 누구나 아는 것이긴 한데, 이 프레임을 다른 데 갖다 대면 완전히 새로운 아이디어가 되는 경우가 있고, 두 가지를 합쳐보면 또 새로운 게 나오고. 설명이 좀 추상적이긴 하지만 그런 경우가 많았습니다. 

 

Q. 위에 말씀하신 역량 중 ‘커뮤니케이션’ 부분에 큰 강점이 있으신 것 같네요. 그렇다면 분석하면서 가장 즐거웠던 순간은 언제일까요?

A. 당연히 가장 즐거웠던 순간은 1) 해결책(포괄적인 의미의 모델)이 떠올랐을 때, 2) 그 해결책에 전체 데이터를 밀어 넣고 그 결과를 봤을 때입니다. 프로세스는 알지만, 그 결과가 어떻게 나올지는 전혀 알 수 없기 때문에, 그 결과는 늘 궁금했던 만큼 신기한 것 같습니다.

 

Q. 반대로 힘들었던 순간도 있으셨을 것 같은데요?

A. 힘들었던 순간은 내가 가진 역량으로 프로젝트를 풀기에 부족하다고 느낄 때인 것 같고, 스트레스(?)받을 때는 성장할 수 없는 프로젝트를 하거나 그런 가능성이 별로 안 보일 때인 것 같아요.

 

Q. 이 질문은 데이터 분석 고수께 꼭 묻고 싶은 질문인데요! 데이터 분석 결과가 원하는 방향으로 나오지 않을 때, 즉 분석 모델 성능이 너무 안 좋다고 판단될 때, 혹은 분석 결과가 원하는 기획 방향대로 나오지 않을 때 어떻게 계획을 재설정하시나요?

A. 기획 방향대로 나오지 않는 것이 정상적인 경우라고 생각합니다. 시나리오, 가설을 생각하고 몰입하다 보면 그 결과가 나오지 않는 것이 이상하다고 여길 때가 있습니다.

 분석의 목적으로 돌아가 보면, 일차적으로 있는 현상을 있는 그대로 인식할 수 있어야 하는 것 같습니다. 예를 들어, ‘서울 주요 상권에서 폐업을 덜 하게 하려면 어떻게 해야 할까’라는 문제를 푼다고 가정할 때, 이 질문의 가정은 ‘폐업을 많이 한다’입니다. 그런데 아무리 데이터를 뜯어봐도 다른 도시에 비해 폐업이 적을 수도 있습니다. 폐업이 많은 것은 통념이거나 나도 모르게 생겨난 인식이었을 수 있습니다. 이럴 때 질문이 잘못되었다고 빠르게 방향 수정을 할 수 있어야 합니다. 글로 읽으면 너무 당연해 보이지만, 제한된 시간에서 내 로직을 놓치기 싫을수록 이런 당연한 것들이 잘 안 보이는 경우도 매우 많았던 것 같습니다.

< 분석 결과물을 어떻게 잘 표현할 수 있을지 실제 지도를 보면서 설명 중>

 

Q. 문제를 있는 현상 그대로 인식하는 것. 정말 좋은 말씀입니다. 박용재 분석가님이 보셨을 때, 현재 분석가로서 더 개발하고 집중하면 좋은 분야가 있을까요?

A. 분석가의 유형은 기능적인 측면에서나 도메인 측면에서나 그 스펙트럼이 매우 넓다고 생각합니다. 개인적으로는 데이터 분석 경험이 어느 정도 누적되었다면, DPM(Data Product Manager) 에 대해 진지하게 생각해볼 필요가 있다고 생각합니다. 

 

Q. DPM?

A. DPM은 분석하는 과정이나 분석을 포괄하는 모듈을 제품처럼 다룰 수 있는 매니저 역할인데, 최근에 제가 회사에서 맡은 일이기도 하고요. 분석은 직접해보면서 겪어보지 않으면 알 수 없는 게 많습니다. 그래서 그런 제품을 만드는 데에도 분석 경험을 풍부히 갖출수록 장점이 많다는 생각이 듭니다. 아직 DPM이라는 단어가 데이터 시장에서는 생소한 편이나, 미국에서는 이제 제법 사용되고 있고, 최근에 카카오에서 직무를 신설해서 채용하는 것도 본 적이 있습니다.

 

Q. 분석가 유형 중에는 DPM을 추천해주셨는 데요. 그렇다면 데이터 분석 내에서 추천할만한 도메인이 있을까요?

A. 어떤 도메인이 유망하다거나 중요하다기보다, 해당 도메인에 대해 자신이 관심 있는 분야인지가 중요하다고 생각합니다. 서비스 관점과 데이터 과학 관점에 따라 데이터셋을 바라보는 게 달라집니다. 데이터 분석가로서 데이터 과학 관점에서 데이터 셋을 바라보기 쉽죠. 가령, 모델러의 입장에선 모델의 성능을 향상시키기 위해 최대한 많은 속성과 특징들을 이용하고 싶을 수 있습니다. 하지만, 속성 정보를 자세히 아는 건 서비스 관점에선 중요하지 않을 수 도 있습니다. 서비스 관점에선 전체 볼륨이 얼마나 되는지를 파악하는 게 더 중요한 경우도 많고요. 다른 조직과 협업할 때 영향력 있는 분석가가 되려면 데이터셋을 서비스 관점에서 바라보는 노력이 중요하다고 생각합니다. 빅데이터라고 다 중요한 게 아니거든요. 데이터 중에서 핵심인 데이터를 찾고, 관련 없는 데이터도 파악할 수 있어야 합니다.

 

Q. 데이터 중 핵심 데이터를 찾는 식견을 기르기 위해서는 지식을 많이 쌓아야 할 것 같네요. 분석가님은 데이터 분석 관련해서 감명 깊게 읽은 책이나 추천할만한 도서가 있으신가요? 또는 자주 참고하는 사이트가 있나요?

A. 저는 데이터 시각화를 좋아해서, 여기저기 둘러보는 편입니다 (프로젝트에서 화려한 시각화할 일은 없지만요) flowingdata.com 사이트를 좋아하고, 이 사이트 운영자가 낸 책 중 visualize this를 좋아합니다. 출간된 지 시간이 많이 지나서 같이 첨부된 R 코드 자체는 매우 basic 합니다. 그리고 NY times 인터랙티브 기사도 좋아합니다.

 ‘모델’을 다룬 책 중에서는 ‘매칭’ (앨빈 로스 지음)을 너무 재밌게 읽었습니다. 장기이식 문제를 풀려면 서로 모르는 사람이 합을 맞춰야 하고, 수술 시간도 제한적이어서 늘 쉽지가 않다고 합니다. 이를 경제학 모델로 풀어내고, 실제로 병원에서 성공해내는 과정을 담은 책입니다.

<박용재 분석가님이 추천하신 도서 ‘매칭’>

 

 

Q. 마지막으로 주니어 데이터 분석가들에게 조언 한 말씀! 부탁드립니다.

A. 첫 회사에선 데이터 분석으로 돈을 벌어야 했습니다. 하지만 SPH는 데이터 분석이 아닌 다른 분야로 이미 수익을 창출하고 있죠. 당장 수익을 창출할만한 프로젝트를 하지 않아도 된다는 여유. 이걸 최대한 활용하셨으면 좋겠습니다. 다양한 시도를 하시는 거죠. 공간 분석에서도 지도뿐만 아니라 이미지 분석, 딥러닝, NLP 등을 접목해보는 것도 좋을 것 같습니다. 

 실제 프로젝트를 하는 거에도 명확한 장점이 있죠. 클라이언트로부터 피드백을 받을 수 있다는 건데요. 이를 위해선 데이터 저널리스트처럼, 페북과 같은 곳에서 공개적으로 피드백을 받는 것도 좋은 선택입니다. 

 데이터 저널에서 중요한 건 신속한 분석입니다. 또한 사람들이 아예 관심 없는 것은 파급력이 없으니 주제를 잘 선정해야겠죠. 그래서 미래의 예정된 이벤트에 대해서 분석하는 걸 추천해 드립니다. 가령 몇 개월 뒤에 예정된 부동산 정책이 있다면, 이 정책 시행되었을 때 발생할 파급 효과에 대한  분석을 미리 해볼 수 있겠네요. 지금부터 미래에 시행될 파급력 있는 정책을 조사하면, 그와 관련된 데이터를 쌓아둘 수 있습니다. 시뮬레이션이나 예측도 할 수 있고요. 그러면 그 정책이 시행된 시기에 신속하게 분석 결과를 공개 할 수 있겠습니다. 

 또한 앞서 말씀드린 DPM에 관심을 가지시면 성장하는 데 큰 도움이 되실 겁니다. 반복되는 프로젝트에서 중요한 부분을 모듈화, 자동화하는 거죠. 단, 여기서 모든 걸 프로덕트화 할 수는 없습니다. 시장의 반응을 보고 프로덕트화할 과정을 선택해야 합니다. 이를 위해선, 분석해왔던 과정이 어떻게 연결되는지 파이프라인 설계를 계속해보시는 게 도움이 됩니다.

 

<좌측부터 SPH 김도환 전임, 박용재 데이터분석가, SPH 이소린 전임>

 

Q. 귀한 시간 내어 주셔서 감사합니다. 

저도 오랜만에 다른 회사분들하고 즐거운 대화도 나누고, 저 스스로도 정리할 수 있는 시간이 된 것 같습니다. ^^

인터뷰를 마치고 …… (한 줄 후기)

*본 인터뷰는 코로나 19 방역에 준수하여 진행하였으며 사진 촬영 시에만 마스크를 내려 촬영하였습니다.

 

SPH는 CARTO, Google Maps, SuperMap 등 다양한 케이스에 적용될 수 있는 다채로운 제품군을 보유하고 있으며 고객의 사례에 꼭 맞는 무료 세미나 및 개별 컨설팅을 제공하고 있습니다. 각 케이스에 맞춰 더욱 자세한 이야기를 나누고 싶으시다면 여기에서 문의 주시길 바라며, SPH에서 발행하는 GIS/로케이션 인텔리전스 관련 최신 소식을 받아보고 싶으신 분들은 페이스북 페이지 또는 뉴스레터를 구독해 주시길 바랍니다. 감사합니다.

여의도 직장인들을 위한 찐맛집은?

여의도 직장인들을 위한 찐 맛집은?

(1만 5천 개 이상의 맛집 리뷰 데이터 분석!)

“점심 뭐 먹지?”

 

직장인들의 중심지, 여의도에서 맛집을 찾는 것은 회사원들에게는 중대한 결정 사안 중 하나입니다. 대부분 입소문으로 식당을 가거나 인터넷 속 ‘후기’들로 소중한 점심 메뉴를 결정짓죠. 인터넷에는 식당 리뷰를 볼 수 있는 플랫폼이 매우 많지만, 업무로 바쁜 직장인들에게 일일이 모든 리뷰를 찾아보는 건 어려운 일입니다. 더군다나, 힘겹게 찾아낸 식당이 맛집이 아닐 경우 허탈감이 이루 말할 수가 없습니다. 누구나 한 번쯤은 블로그 리뷰를 보고 갔다가 실망하고 돌아와 봤을 거라 생각합니다. 

 

‘수많은 맛집 찾기 플랫폼에서 과연 어떤 정보가 믿을 만한가? 진짜 맛집을 찾을 수 있게 알려주는 정직한 곳이 없을까?‘ 

 

이번 포스트는 이와 같은 문제에 대한 저희 SPH 데이터 컨설팅팀에서 찾아낸 나름의 해답입니다. 맛집은 주관적인 요소를 상당히 많이 포함하고 있기에, 저희의 솔루션이 범용적인 모범 답안일 수는 없음을 말씀드리고 싶습니다.

우선 맛집과 관련된 모든 포털 사이트의 리뷰 정보를 취합하고 분석하는 과정을 보여드리려 합니다. 분석 과정에서 저희는 3가지 관점을 기준으로 삼고 각 기준별로 맛집 순위를 매겼습니다. 이러한 배경에는 앞서 말씀드렸듯이, 맛집에 대한 기준은 주관적이기에 1가지 관점만으로는 순위를 매기기가 어렵다는 데 있습니다. 저희 SPH 데이터 컨설팅팀은 ‘맛집 탐방러’에게 보다 신뢰할 만한 정보를 제공함으로써, 작게나마 여의도에서 식사하시는 분들께 소소한 행복을 전해드리고 싶습니다.

 

0. 맛집 리스트 선정

처음부터 전국 맛집을 모두 분석하기엔 음식점 개수가 너무나 많았습니다. 천 리 길도 한 걸음부터라고, 전국지점을 분석하기에 앞서 작은 한 지역부터 분석해보기로 했습니다. 이를위해, 저희가 근무하는 곳인 여의도 지역 내의 일부 맛집 데이터만을 분석해보고, 추후 (반응이 좋을 경우) 확장하기로 했습니다. 일종의 pilot study 개념으로 진행하였지만, 이번 분석을 통해 데이터 수집에서부터 분석까지 전체적인 파이프라인을 구축하였습니다.

여의도 찐 맛집을 조사하기에 앞서, 여의도 맛집 리스트 목록이 필요했습니다. 망고플레이트는 구글에 ‘맛집 검색’으로 검색하였을 경우 1순위로 등장하는 사이트입니다. 다이닝코드와 식신, 메뉴판 닷컴 등도 있지만 망고플레이트의 영향력이 아직 제일 높다고 생각하였기에 망고플레이트를 기준으로 맛집 리스트를 선정했습니다. 

망고플레이트에서 ‘여의도 맛집’이라고 검색할 경우 총 44개의 장소가 나옵니다. 한식, 일식, 양식에서부터 카페, 뷔페까지 다양한 업종의 장소들이죠.

이 44개 맛집의 주요 포털 사이트 5곳의 후기들을 취합하여 ‘진짜 맛집’을 보여드리려고 합니다.

 

1.리뷰 지수 

  리뷰란 가보지 못한 곳을 먼저 개척한 사람들에게 듣는 스토리이기도 합니다. 식당을 먼저 가본 고객들이 써 내려간 솔직 담백한 후기들을 보고, 우리는 해당 식당을 방문할지 말지를 한 번 더 고민하게 됩니다. 일부 광고성 리뷰를 제외하고, 대체로 리뷰가 긍정적인 식당이라면 ‘무난하게’ 점심을 즐길 수 있습니다. 리뷰를 통해 얼마나 맛있는지에 대한 점수를 매길 수 있습니다.

단, 이때 사용되어야 할 리뷰는 신뢰할만한 데이터여야겠죠. 리뷰 데이터가 신뢰성을 가지기 위해선, 광고성 리뷰나 의도적인 영업 방해 의도로 작성된 리뷰를 가려낼 수 있어야 합니다. 저희 SPH 컴설팅 팀에서는 리뷰 데이터로부터 신뢰성있는 정보를 추출하기 위해 평가하는 사람의 패턴과 점수 분포, 개수 분포 등을 반영하였습니다. 이를 바탕으로 텍스트 데이터에 대한 감성분석을 진행하고, 리뷰와 관련된 여러 메타 데이터와 조합하여 리뷰 지수를 산출했습니다.

 

데이터 분석 전문가가 분석한 단순하지만 정교한 맛집 리뷰 지수!

구글, 네이버, 카카오 등 식당 후기를 찾을 수 있는 플랫폼은 무궁무진합니다. 저희는 주요 포털사이트 5곳에서 최근 6개월 동안 고객들이 남긴 개별 리뷰 점수들을 총 취합하였고, 앞서 소개해드린 과정으로 저희 나름의 리뷰 지수를 산출했습니다. 리뷰 지수를 통해 산출된 결과는 카테고리별로 위 그래프와 같이 나타낼 수 있습니다. 한식에서는 진주집이, 일식에서는 아루히, 양식에선 테이스팅룸, 중식에선 라무진, 카페에서 그레이에스프레소가 높은 점수를 차지했습니다. 

 

리뷰지수 산출에 쓰인 딥러닝 기반 감성 분석

리뷰지수에는 리뷰의 점수 분포나 리뷰를 단 사용자의 패턴뿐만 아니라 텍스트 자체의 *감성 분석 결과도 포함되어 있습니다. 단순히 포털 사이트별 리뷰 점수를 취합한 수치가 아닌, 딥러닝을 통해 해당 식당에서 올라온 모든 후기 글의 감성 점수를 취합하였습니다. 또한 각 플랫폼에 나타난 식당 전체 평균 점수에서도 상대적으로 긍정의 비율이 높은 식당에는 가중치를 더 많이 주는 방법을 통해 차별화를 두었습니다.

 

 

이때 쓰인 감성 분석을 간략히 표현한다면 위 그림처럼 나타낼 수 있습니다.  우선 리뷰 텍스트 데이터내 단어들을 벡터로 임베딩 시켜줍니다. 임베딩을 통해 생성된 벡터를 딥러닝 모델의 입력값으로 활용합니다. 단어 임베딩 기법을 사용하였기에 단어들은 주변 문맥 정보를 반영하고, 딥러닝 모델로는 양방향 LSTM을 사용하여 언어 문법 구조의 복잡한 측면도 잡아낼 수 있습니다. 그 결과 적절한 확률값을 예측할 수 있고 이를 이용해 감성 분석을 시행하였습니다.

*감성 분석이란 문장을 형태소 단위로 분리하여 문장의 긍정 및 부정의 비율을 예측하는 기법입니다. 문장의 마지막 단어들에 높은 가중치를 매기는 LSTM 모델이 아닌 초반에 나온 단어들도 가중치를 높게 두어 예측하는 모델인 양방향 LSTM을 사용했습니다. 또한 15만 여개의 네이버 리뷰 데이터로 학습시켜 예측 정확도를 높였습니다.  

참고 문헌) Bidirectional Recurrent Neural Networks, Bidirectional LSTM Networks for Improved Phoneme Classification and Recognition

 

 

2. 리뷰 트렌드

“여기가 인기 식당이라는데 난 잘 모르겠는걸?”

오래전부터 오픈한 식당들은 당연히 리뷰 수도 많기에, 리뷰 데이터에서는 신규 식당보다 유리한 위치를 선점할 수 있습니다. 또한 예전엔 맛있었지만, 최근엔 맛이 변하여 예전만 못하거나 혹은 예전보다 훨씬 업그레이드된 식당들도 있을 수 있습니다. SPH 데이터 컨설팅팀에서는 여의도에서 ‘최근’에 핫한 식당들과 다소 인기가 떨어진 식당들을 보여드리려고 합니다.

최근 3개월간 식당을 다녀간 고객들의 후기가 좋아졌거나 나빠졌다는 것을 판가름할 수 있는 플랫폼은 지금까지 없었습니다. SPH 데이터 컨설팅팀에서는 최근 3개월간 리뷰의 평균 변화량을 다각적으로 분석하였습니다. 한식에선 정인멱옥, 일식에선 카레오, 양식에선 그리너리 샐러드, 중식의 경우 서궁, 카페는 아이엠베이글과 패트릭스와플이 최근 3개월간 사랑을 받고 있는 곳이네요. 그에 비해 진주집, 아루히, 테이스트링, 오헨과 뷔페 업종은 이전보다 고객의 발길이 뜸해졌습니다.

 

리뷰 트렌드에서 높은 수치는 해당 식당이 기존에 방문하던 고객 수와 비교했을 때, 더 많은 고객이 방문했거나, 평가가 이전보다 상대적으로 좋아졌다는 것을 의미합니다. 반대로 특정 식당의 수치가 낮을 경우, 해당 식당은 이전보다 고객의 방문이 뜸하거나 종전의 평가에 비해 최근 고객들의 평가가 낮아진 곳을 의미합니다.

가령 특정 식당의 금월 리뷰 수가 100개라고 합시다. 만약 전월 리뷰 수가 10개라면 해당 식당의 트렌드 지수는 높은 값을 띌 가능성이 높습니다. 반면, 전월 리뷰 수가 1000개였다면 오히려 감소하는 추세를 나타내기에 트렌드 지수는 낮은 수치를 기록할 것입니다. 물론 점수도 같은 맥락으로 파악해봐야 정확하게 알 수 있겠지만요. 리뷰 트렌드를 기준으로 최근에 뜨고 있는 식당을 방문해보는 것도 좋을 것 같습니다. 

 

출처: https://www.chosun.com/site/data/html_dir/2020/08/21/2020082100322.html

다만, 리뷰 트랜드의 경우 최근 코로나 바이러스의 영향이 반영될 수밖에 없습니다. 가령, 공간이 협소하거나, 다수의 사람들이 한 곳에 모일 수 밖에 없는 뷔페 같은 경우가 좋은 예입니다. 이런 곳의 경우 코로나의 여파로 인해 입은 피해가 위 수치에도 드러날 수 있습니다. 앞선 그래프에서도 보실 수 있듯이, 뷔페의 경우 트랜드가 음의 점수를 나타내고 있습니다. 또한, 일식에서 아루히는 리뷰지수와는 반대로 상당히 낮은 리뷰 트랜드 지수를 보입니다. 이 또한 코로나의 영향이라고 추측할 수 있습니다. 추측건대, 아래 사진에서 보듯이 아루히는 사람 사이의 공간이 넓지 않지만 항시 분비는 장소이기에, 최근 고객들에게는 다소 위험한 장소로 인식되었을 수도 있습니다.

 

아루히 네이버예약 페이지 사진

 

3. 가성비 순위  

 

후기 만큼 중요하게 생각하는 부분은 ‘가격’입니다. 여의도 직장인들에게 점심값은 ‘소소익선’입니다. 하지만 열심히 일한 직장인들의 소중한 한 끼기 때문에, 저희는 맛도 잡고 가격도 잡은 식당을 카테고리별로 소개해 드리려고 합니다. 가성비 순위를 보여드리기 전, 데이터를 통해 어떻게 가성비 순위를 산출하게 되었는지에 대한 과정을 보여드리겠습니다. 

 

식당의 가성비는 맛 대비 가격의 저렴함과 비쌈을 의미합니다. 개개인의 차이에 따라 맛의 평가가 달라지지만, SPH 데이터 컨설팅팀에서는 대중의 입맛을 대변하는 ‘리뷰 지수’, 해당 업종의 평균가격, 해당 식당의 평균 가격을 조합하여 새로운 가성비를 정의하고 이에 따른 순위 산출했습니다. 업종별로 가격대의 기준이 다를 수 있음을 인지하여 업종별 가격 차이를 중요 변수로 고려하였습니다. 

 

가성비 산출 프로세스에 따른 가성비 순위 결과  

 

가성비 1위는 각 카테고리별로 진주집, 카레오, 바스버거, 서궁, 그레이에스프레소입니다. 카레오는 일식이지만 주메뉴가 스시가 아니어서 가격이 상대적으로 낮게 측정된 면이 있습니다. 이 점을 감안하면 일식에선, 스시집인 아루히가 가성비가 매우 좋은 것을 확인할 수 있습니다.

 

 

4. 지도로 한 번에 보는 여의도 베스트 식당 현황

앞서 분석한 여의도 맛집의 리뷰 지수, 리뷰 트렌드, 가성비 순위를 구글 my maps에 나타내어 보았습니다. 식당 아이콘을 클릭하시면 식당별 점수와 순위 정보가 나옵니다.


5. 후기

 


Written and Analyzed by 

SPH 데이터 컨설팅 관련 컨설팅 문의는 여기를 클릭해주시기 바랍니다. 

머신러닝 지도학습을 통해서 꼽아본 최적의 스타벅스 DT 장소!?

2부-2: 머신러닝을 통한 스타벅스 DT 최적의 입지 점수는?

인문사회 데이터기반 스타벅스 DT 입지조건 분석(featuring by AI)

지금까지 최적의 입지 변수를 가진 스타벅스 DT 장소들을 찾아보았습니다. 제 2의 최적의 스타벅스 DT점이 되기 위해 ‘어디에’ 스타벅스 DT를 입점시키는 게 좋을 지 찾는 과정의 마지막 단계에 이르렀습니다.  

저희 SPH 데이터 컨설팅팀에서는 다양한 데이터로부터 학습과정에 필요한 변수들을 추출하고, 이를 토대로 지도 학습 시행했습니다. 학습 결과 나온 모델로 ‘입지 점수’를 예측할 수 있습니다. 지도 학습 결과 산출된 ‘입지 점수’는 해당 지점이 스타벅스 DT 입점에 얼마나 최적화된 장소인지를 수치화한 결과 입니다.

A. [머신러닝 지도 학습]이란? 

  머신러닝 지도 학습은 비지도 학습과 달리 명확하게 학습해야 할 정답(혹은 target, 종속변수)이 있습니다. 지도 학습에서는 유동인구, 아파트 세대수, 대기업 정보 등의 feature 데이터(독립변수) 들만 주어지는 게 아닌, 해당 데이터의 정답이 학습시 함께 주어집니다. 이렇게 학습된 모델은 feature를 입력으로 받은뒤, 입지 점수를 출력하는 함수라고 할 수 있습니다. 

  모델의 성능을 좌우하는 건 양질의 데이터이므로, feature 뿐만 아니라 target 도 매우 중요합니다. 이런 점에서 스타벅스 DT 입지 점수와 가장 관련 깊은 target은 스타벅스 DT의 매출정보가 아닐까 싶습니다.

* 하지만 매출 데이터를 얻을 방법이 없었기에, 저희 나름의 알고리즘을 바탕으로 입지 점수를 선정하고 이를 target으로 하여 모델링을 진행했습니다. 

B. 분류화 & 그룹별 머신러닝 기반 분석

SPH 데이터 컨설팅팀은 정확한 머신러닝 알고리즘을 구축하기 위해 스타벅스 DT점들을 총 4분류로 나누었습니다. 전체 스타벅스 DT점들을 하나의 알고리즘으로 분석하는 것보다, 분류 후에 각 그룹별로 예측한 입지 점수가 더 높은 정확도를 나타내는 것을 확인하였습니다. 그 과정과 결과를 설명드리려 합니다.  

관광지 그룹으로 분류된 스타벅스 DT점들은 강변, 드라이브 코스, 관광지 근처인 특징들을 가진 DT점들을 분류한 그룹입니다. 또한 실질적으로 ‘유명 관광지’ 근처가 아니더라도 리버사이드팔당DT점과 같이 휴식을 목적으로 찾아오는 지점들을 간추려내었습니다. 이 지점들이 가지는 특징과 입지 변수를 토대로 스타벅스 DT의 입지와 관련하여 예측 분석을 해보았습니다. 예측 분석 후 가장 크게 영향을 미치는 변수들 TOP10을 소개드리려고 합니다.    

관광 그룹으로 분류된 스타벅스 리버사이드 팔당점 DTR 전경

1) 머신러닝 모델링 과정 및 결과

– 스타벅스 DT점의 Target 변수?

  지도학습을 통해 모델이 완성된다면, 이 모델을 통해 스타벅스 DT 입점 전에 내가 선택한 장소가 얼마만큼의 매출을 낼 수 있는 지를 예측할 수 있습니다.

  앞서 말씀드린바와 같이, 머신러닝 지도학습에서는 target 변수가 중요합니다. Target 변수가 무엇일까요? 스타벅스 DT 입지 분석에서쓰인 target 변수는 스타벅스 DT를 입점하기에 적합한 장소인지 아닌지를 구분하기 위해서 쓰이는 변수입니다. 좋은 입점 장소를 선택하는 데 있어서 중요한 변수는 각 DT점의 ‘매출’ 및 ‘토지의 가치’등이 있습니다. 

여기서 저희가 결정하기 위해 시도했던 변수들은 1.감성 지수가 포함된 Label, 2. 6개월 네이버 영수증 개수, 3. 공시지가 3년치 상승률, 4. 공시지가 3년치 평균입니다. 네 변수 중 다른 독립 변수들과 상관 관계 수치가 가장 높고 많은 독립 변수가 포함된 변수를 target 변수로 선택했습니다.

여기서 저희가 관광지에 스타벅스DT를 입점하기에 적합한 장소인지 아닌지를 선택, 구분하기 위한 값으로 선택한 중요 변수는 ‘공시지가 3년치 평균’입니다. 즉 53개의 영향을 미치는 입지 변수들이 평균 66% 정도 ‘공시지가 3년치 평균’과 상관관계가 있다고 할 수 있습니다. 

입점 예정인 장소를 머신러닝을 통해 예측하였을 때 공시지가 3년치 평균이 높게 나온다면 그 장소는 여러 독립 변수에 근거하여, 스타벅스DT점으로 높은 매출을 전망할 수 있을 것입니다.

2) 관광지에서 스타벅스 DT 매출 상승을 위한 중요 변수는?

머신러닝 지도 학습 결과, 왼쪽 Y축의 값은 관광지로 분류된 스타벅스DT점들이 가지는 중요 변수들을 나타내었습니다. X축은 입점 장소의 공시지가 상승, 하락에 어떠한 영향을 가지는 지, 변수의 중요도를 뜻합니다. (중요 변수들 중 10개 발췌)

예를 들어, ‘수요일’ 유동인구는 관광지에서 스타벅스 DT를 입점하는 데 영향을 미치는 변수들 중 가장 중요한 변수라고 볼 수 있습니다. 특히, 수요일날 유동 인구 수가 많다면 그 관광지로 분류된 스타벅스DT점은 매출이 높을 가능성이 큽니다. 

반대로, 수 km내 주요기업 수는 관광지에 스타벅스DT를 입점하기에는 영향력이 매우 적은 결과값을 가진다고 볼 수있습니다. 

이러한 변수의 부정, 긍정적인 관계와 중요도의 높고 낮음을 통해 관광지에 스타벅스DT를 입점하는 데 있어서 입점 장소의 변수값의 중요성을 알 수 있습니다.

**아래는 이러한 머신러닝 알고리즘을 구축하는 과정에 산출한 정확도와 모델 선택 차트입니다. 첫번째 그래프를 통해서 모델링 오차가 mae(평균 절대값 오차) 기준 0.04 정도로 예측을 잘 하는 알고리즘이란 것을 확인할 수 있습니다. 또한 두번째 차트에서 보이는 것처럼, 최적의 성능을 산출하기 위해 10가지 이상의 모델을 학습시키고 이중, 가장 최적화된 StepwiseLinear 모델을 선택했습니다.

**아래는 머신러닝 모델의 잔차의 분포를 나타냅니다. 잔차의 분포가 정규분포를 따름을 확인할 수 있습니다.

 

IC 근처로 분리된 스타벅스 DT점들은 대략 80여개로, IC 진입로에 위치하여 있거나 고속도로 근처 및 지리적으로 아파트 쪽을 입구로 향하지 않고 고속도로쪽으로 출입구가 향한 지점들입니다. 또한 정확히 IC근처가 아닐지라도 이 지점들이 가지는 특징들은 주변 아파트 및 거주민들을 위한 고객층이 아닌, 고속도로로 진입하여 다른 지역으로 이동하는 고객층을 위해 위치한 스타벅스 DT점입니다.  

IC근처 그룹으로 분리된 스타벅스 수원IC DT 전경

1) 머신러닝 모델링 과정 및 결과

위의 관광지로 분류된 스타벅스DT 모델 알고리즘 프로세스와 같이 IC근처로 분류된 스타벅스 DT도 Target 변수 선택이 중요한 단계입니다.

각각의 종속변수에 대해 feature들과의 상관관계를 분석했습니다. 위 차트의 핵심적인 수치를 요약한 그래프는 아래와 같습니다.

  위 그래프에서 볼 수 있듯이, 공시지가 3년 평균 결과의 feature개수와 값이 가장 높습니다. 49개의 다른 입지 변수들이 공시지가 3년 평균값에 평균적으로 44% 영향을 미칩니다. 이를 통해 종속변수를 선택하고 모델링을 진행했습니다.

2) IC 근처에서 스타벅스 DT 입점시 매출 상승을 위한 중요 변수는?

  위의 그래프는 IC 근처로 분류된 스타벅스DT점의 매출 상승에 영향을 미치는 요인이라고 볼 수 있는 변수들과 중요도입니다. IC근처에 주요기업 개수가 많을 수록 스타벅스DT 입점에 유리한 변수로 작용할 수 있습니다. 또한, 인근에 스타벅스가 존재한다면 오히려 매출 상승에 좋은 영향을 줄 수 있다는 결과를 가지고 있습니다. 주말에 교통량이 많을 수록 IC근처에 스타벅스 DT 입점이 긍정적인 요인이 될 수 있습니다. 

**최적의 성능을 산출하기 위해 가장 최적화된 AdaBoostRegressor 모델을 선택했습니다.

사업체로 분류된 스타벅스 DT점은 주변에 기업 캠퍼스, 산업단지 등이 위치해있어, 회사원들이 주요 고객층으로 자리한 DT점입니다. 대략 40여개의 스타벅스 DT가 사업체 그룹으로 분류되어있으며 이 그룹은 다른 분류 (관광, IC근처, 아파트)와는 다른 입점 변수가 크게 작용할 것으로 예상하고 있습니다.

사업체 그룹으로 분류된 스타벅스 광주신세계DT 전경

1) 머신러닝 모델링 과정 및 결과

사업체 근처로 분류된 스타벅스DT가 최적의 입점 장소인지 아닌지를 분류해내는 종속 변수를 선택하는 데 있어서 위의 프로세스와 같이 네가지의 변수들을 이용했습니다. 아래 그래프를 통해 53개의 다른 입점 변수들이 공시지가 3년 평균 결과값에 평균적으로 51% 영향을 미친다고 나옵니다.

다른 여타의 변수들보다 높은 변수 상관율과 많은 변수들이 영향을 끼치기 때문에 ‘공시지가 3년치 평균’을 사업체 근처 스타벅스DT 입점의 종속 변수로 사용했습니다.

2) 사업체 근처에서 스타벅스 DT 입점시 매출 상승을 위한 중요 변수는?

 사업체 근처에 스타벅스DT 입점시 중요한 변수는, 머신러닝 지도학습 결과 나타난 위의 변수들입니다. (중요 변수 10개만 발췌)  

이를 통해 사업체 근처 스타벅스 DT의 경우, 교통량이 많고 아파트 세대수가 많으며, 인근에 스타벅스가 위치해 있을수록 매출 성장이 높은 곳이라고 분석할 수 있습니다.

앞서 비지도 학습에서 1군집으로 분류된 ‘스타벅스 광주신세계DT’점은 위의 변수들을 어떻게 포함되고 있을 까요?

스타벅스 광주신세계DT점 사업체 근처로 분류된 스타벅스DT점 평균
동단위_아파트_세대수 10765세대 5123세대
교통량 점수 2.5 1.8
인근_스타벅스_거리 1.2km  1.9km
교통량_점수_평일 3 1.8
M_25 9803명 1693명
아파트_매매가_상한 3.3억 3.3억
06~09 28850명 7121명
M_59 13669명 3780명
M_34 13704명 3172명
M_60 31442명 6636명

위의 표와 차트는 머신 러닝 지도학습에서 나타난 중요 변수들에 따른 머신 러닝 비지도 학습에서 1군집으로 분류된 광주 신세계DT점 입지 변수 값의 비교입니다. 아파트 매매가 상한 변수를 제외한 모든 변수에서 평균적으로 스타벅스DT점들보다 굉장히 높은 변수 값을 가지고 있습니다. 이를 통해 비지도 학습에서 나온 1군집 사업체는 머신 러닝 지도학습에서 학습한 결과처럼 중요 변수에서 높은 값을 포함한다고 볼 수 있습니다. 

**최적의 성능을 산출하기 위해 가장 최적화된 AdaBoostRegressor 모델을 선택했습니다.

아파트 그룹으로 분류된 스타벅스 DT점은 총 90여개로 가장 많은 모집단을 포함하고 있습니다. 이 그룹은 주변에 IC근처 및 고속도로 진입로가 없으며, 유명 관광지가 위치하지않고, 크고 작은 산업체가 존재하지 않는 곳입니다. 반면에 주변에 아파트 및 거주 주택들이 많은 DT 지점입니다.

아파트 그룹으로 분류된 스타벅스 송파나루역DT 전경

1) 머신러닝 모델링 과정 및 결과

아파트 근처 그룹으로 분류된 스타벅스DT가 최적의 입점 장소인지를 분류해내는 종속 변수를 선택하는 데 있어서 위의 프로세스와 같이 네가지의 변수들을 이용했습니다.

다른 그룹과 같이 아파트 그룹도 공시지가와 관련된 종속 변수가 상관관계가 높았습니다. 반면, 각 종속변수에 따른 모델링 성능의 경우 ‘6개월 네이버 영수증 개수’를 종속 변수로 선택한 모델이 가장 높았기에, 종속 변수로 공시지가를 선택하지 않았습니다. 아마 아파트 일대란 그룹 자체가 이미 공시지가가 평균적으로 높기에, 변수간의 관계를 추정하는데 어려움이 있을것으로 예상됩니다.

아래 그래프를 통해 9개의 다른 입점 변수들이 네이버 영수증 개수 결과값에 평균적으로 26% 영향을 미침을 알 수 있습니다.

2) 아파트 근처에서 스타벅스 DT 입점시 매출 상승을 위한 중요 변수는?

위의 표와 차트는 비지도 학습에서 1군집으로 분류된 송파나루역, 광주상무, 온천장역 DT점과 지도학습에서 스타벅스DT 입점의 중요 변수로 선정된 TOP10과의 변수 값 비교입니다. 세 곳 모두 대부분 아파트로 분류된 DT점들의 평균 값보다 상위 값을 보유한다고 나옵니다. 특히나 유동 인구에서는 평균값보다 크게 상회한다고 볼 수 있으며 아파트 거리도 상대적으로 가깝다고 볼 수 있습니다.

**최적의 성능을 산출하기 위해 가장 최적화된 LinearSVR 모델을 선택했습니다.

 

앞서 학습한 모델은 해당 지역의 유동인구, 교통량, 아파트 세대수, 주요기업 정보 등을 토대로 공시지가에 기반한 입지점수를 예측하려고 합니다. 이제 이 모델을 이용하여 입지조건을 분석한 결과를 말씀드릴까 합니다.

입점시 높은 매출을 나타낼 것으로 예상되는 장소를 선정하고, 해당 지역의 변수 데이터를 모아 머신러닝 모델에 기반한 입지점수를 산출했습니다. 편의상 위 지역을 미래 전주만성 DT라고 명하겠습니다.

미래 전주만성DT의 위치

위 지역을 좋은 입지 후보로 선정한 이유는 아래와 같습니다.

  1. 국민연금공단 밀접 및 주변에 산업단지들 다수 분포 – 사업체 인근으로 분류 가능
  2. 호남고속도로 나들목 근처 위치 – IC 인근으로 분류 가능

위 지점은 사업체 인근 혹은 IC 인근 둘 모두로 분류될 수 있게, 각각의 모델로 예측 분석을 시도했습니다. 각 분류별 분포를 보면 예측값은 평균점수 정도로 높지 않아 보입니다. 하지만 전주시라는 지역 특성을 고려할 경우 위 예측값은 다른 양상을 나타낼 수 있습니다. 이를 확인하기위해, 전주에 위치한 DT점의 평균 입지점수와 미래 전주만성DT점의 입지점수를 비교해볼까 합니다. 

전주에는 ‘전주덕진광장DT’, ‘전주백제대로DT’, ‘전주송천DT’, ‘전주평화DT’, ‘전주효자DT’ 총 5 군데의 DT가 있습니다. 5군데 DT의 공시지가 평균값을 산출하고, 모델 예측값과 비교했습니다.

두 가지 모델의 예측 결과를 토대로 산출한, 미래 전주만성 DT의 입지점수 예측 범위와 앞서 소개한 5군데 전주 DT점의 평균값을 시각화했습니다. 입지점수 범위의 최솟값은 사업체용 모델의 예측값이며, 최댓값은 IC용 모델의 예측값입니다. 예측 범위는 전주지역내 스타벅스 DT의 공시지가 평균값 기준, 83% ~ 130% 범위를 나타냅니다. 범위 양 끝 값을 모두 고려할 경우, 전주만성 DT의 입지점수는 전주지역내에 있는 스타벅스DT 평균에 비해 성장가능성이 더 높습니다. 

그렇다면 전주만성DT로 선정한 위치의 현재 공시지가 입지점수를 기준으로 미래의 예측값을 비교하면 어떨까요?

현재 점수와 예측 결과 비교

현재 미래 전주만성 DT의 입지점수와 비교하면, IC 분류 모델과 사업체 분류 모델의 예측치는 각각 295%, 189%로 모두 높은 성장을 예측했습니다. 이는 평균적으로 242% 가량의 성장 가능성을 의미하기에, 전주만성에 스타벅스 DT를 입지하는 것은 괜찮은 투자로 보여집니다.

  저희 SPH 데이터 컨설팅팀은 스타벅스 DT점의 유동 인구, 교통량, 공시지가 및 스타벅스 DT 입점에 영향을 미칠 수 있는 여러 주변 변수를 머신러닝에 근거한 데이터 분석을 통해 과정 및 결과를 도출해냈습니다. 

  입지 전략 분석에서 중요한 변수로 꼽힐 수 있는 매출 데이터등의 부재로 예측 결과값이 상이할 수 있습니다. 하지만, 추가적인 내/외부 데이터 소스가 공급될 경우 더 높은 신뢰성을 띈 모델을 구축할 수 있고 한층 더 깊이 있는 컨설팅이 가능할것으로 판단됩니다.

  또한, 이번 입지분석 과정을 통해서 저희 SPH에서 구축한 머신러닝에 기반한 데이터 분석 파이프라인은 추후 다양한 산업 분야에서 활용될 수 있을 것으로 예상합니다. 스타벅스DT 입지 분석 뿐만아니라, 다양한 프랜차이즈 (다이소, 올리브영 등)와 호텔 업계(신라스테이, 롯데시티 호텔 등)의 입지조건에 최적화된 입지 선정을 할 수 있는 알고리즘을 구축할 수 있는 가능성을 확인했습니다.


김도환 데이터 컨설팅 전임 (dhkim@sphinfo.co.kr)

이소린 데이터 컨설팅 전임 (sllee@sphinfo.co.kr)