데이터 업계 고수와의 인터뷰 3탄

바이브컴퍼니 인공지능&빅데이터 연구소의 윤준태 연구 소장님을 만나다.

안녕하세요, SPH 데이터컨설팅 팀입니다. 이번 고수와의 인터뷰에서는 바이브 컴퍼니((구)다음소프트)를 방문했습니다. 바이브 컴퍼니는 인공지능과 빅데이터 기술에 기반한 회사로, 최근 기술의 우수성을 인정 받아 코스닥에 상장하였습니다. 바이브 컴퍼니는 AI Analytics와 AI Assistant 등의 기술제품을 보유하고 있습니다. 해당 제품은  마케팅, 자산관리, 신제품 개발, 스마트시티, 이상현상 탐지, 위험관리 등 다양한 문제를 해결하는 것과 더불어 의사결정에도 도움을 줍니다. 

출처 : 바이브 컴퍼니 (http://vaiv.kr/business)

특히 바이브 컴퍼니는 기계학습 분야중 하나인 NLP로 매우 유명한 곳입니다. 개인적으로 딥러닝을 포함한 이쪽 기술에 관심이 많습니다. 그래서 그런지 이번 인터뷰가 많이 기대되고 설렜답니다. 

바이브 컴퍼니는 제2의 강남이라 불리는 한남동에 위치해 있습니다. 저희가 인터뷰한 분은 바이브컴퍼니 인공지능&빅데이터 연구소에서 근무중이신 윤준태 소장(부사장)님입니다. 

<좌: 바이브 컴퍼니 윤준태 연구 소장, 우: SPH 이소린 전임>

윤준태 소장님은 처음 뵙는데도 따뜻한 미소와 함께 저희들에게 적극적으로 답해주셨습니다. 아래는 윤준태 소장님과의 인터뷰 내용입니다.

Q. 바이브 컴퍼니 솔루션들이 많은데, 바이브 컴퍼니만이 가진 강점은 무엇인가요?

  • 크게 보면 고유 기술이라고 하는 것은 인공지능과 빅데이터 기술이 있고 각각은 다음과 같습니다.

인공지능 – 지식 베이스, NLP, 기계학습(Deep AI), explainable agent 등이 있습니다. 빅데이터 기술의 경우 – 데이터 수집, 데이터 분석 및 저장, 시각화 등이 있고요.

  • 우선 인공지능을 말씀드리겠습니다. 저희는 인공지능이라고 하면 기계학습만 하는 게 아닙니다. 인간이 가장 이해하기 쉬운 기호화된 형태의 지식, 왜냐하면 인간은 숫자가 아닌 기호로 이해합니다. 인간에게 알려주기 위해선 기호화된 형태로 표현이 되어야 합니다. 그래서 실세계에대한 지식을 구축하는 작업을 굉장히 많이 했습니다. 대화나 실세계에 대한 지식을 전부 총괄해서 구축을 했습니다. 또한 언어처리 시스템과 함께, 단순한 형태소 분석이 아니라 의미나 구문에 대한 분석도 가능하게 만들었죠. 그런 것들을 아울러서 기계학습 모듈이 있습니다. 그리고 그 위에 사람에게 학습 결과를 쉽게 이해할 수 있게 explainable agent라고 하는 것이 있습니다. 이를 통해 사람이 납득할 수 있게끔 설명해줄 수 있고 리포트를 해줄 수 있는게 저희 인공지능이 가진 가장 큰 특징입니다.
  • 빅데이터의 경우 저희는 뉴스도 1990 년도, 블로그도 거의 초창기때부터 수집해왔습니다. 트위터도 매일 국내에서 한글로 만들어진 데이터를 천 만건 이상의 데이터를 수집하고 있습니다. 20여년에 걸쳐 인스타를 포함한 모든 데이터를 적재했습니다.

출처 : 바이브 컴퍼니 (http://vaiv.kr/business)

Q. 주로 어떤 데이터를 수집하시는지 알 수 있을까요?

  • 저희는 언어뿐만 아니라 통계나 주가와 같은 수치 데이터도 수집합니다. 수집 가능한 영역에있는 정형 데이터, 비정형 데이터를 모두 수집하는데 그중에서도 텍스트 데이터를 주로 수집합니다.

Q. SNS에 좀 더 집중 하시는 이유는?

  • 예를 들면, 우리가 어떤 트렌드나 제품에 대해 서베이나 리서치를 한다고 하면 질문지를 만들어 합니다. 질문지를 통해서는 사람이 자신의 표현을 충분히 설명 못합니다. 그런데 막상 자신이 사거나 보거나 경험하게 되면 자유롭게 글을 남기게 됩니다. 그런 글들이 다 SNS, 소셜 데이터에 남게 됩니다. 그건 정해져있는 문항에 대한 대답이 아니라, 자기의 주관적인 생각들이 쭉 정리가 돼 있는 것입니다. 그래서 저희는 자발적으로 쓰여진 그런 내용들을 정리해서 사람들이 어떤 생각을 하는지 분석을 하고 있습니다.

Q. 데이터를 굉장히 많이 수집하시고 계신데, 수집하는데 기준이 있을 거 같아요. 

  • 목적성, 포괄성, 확장성, 안정성, 적시성 이렇게 나눠 볼 수 있습니다. 목적성 같은 경우는, 가령 요즘 AI, 빅데이터가 떠오르는데 그걸 해볼까란 접근법 보다는, 문제가 주어지고 이런 문제를 어떻게 해결해야할 지로 접근하는 방식이죠. 저희가 정하든 고객이 정하든, 풀고자하는 문제를 정의하고, 그 목적에 맞는 데이터를 수집해야한다고 생각합니다.
  • 다음에 포괄성이라는 측면은, 데이터가 충분히 확보되어야 한다는 것입니다. 데이터를 충분히 확보를 하지 않으면 분포를 제대로 알 수 없어 오차가 있을 수 있기에 그러합니다.
  • 확장성의 경우, 다양한 데이터에 확장할 수 있도록, 수정이 용이할 수 있도록 데이터를 만들어간다는 얘기입니다.
  • 안정성은 문제가 생기지 않도록 자료 수집을 안정적으로 관리하는 것인데요. 저희는 수집기를 만들고 끝나는 게 아니라, 모니터링 팀을 따로 구축하여 수집에 있어서 차질이 않도록 계속해서 모니터링을 통해 관리를 하고 문제를 해결 하고 있습니다.
  • 적시성의 경우, 데이터가 혹시라도 수집이 안 되거나 늦게 수집되는 걸 막기 위해 거의 실시간에 가까운 수준으로 데이터를 수집하고 있는 것과 관련됩니다. 적시에 수집을 하기 위해 트위터 같은 경우 거의 초 단위로 수집을 합니다. 블로그 같은 경우 하루에 한 번, 적어도 일주일에 한 번 수집하는 체계를 두고 수집하고 있습니다.

Q. 수집에 있어서 서버를 늘리거나 하드웨어적인 부분에도 최적화를 하는가요?

  • 수집 자체에는 서버가 그렇게 많이 필요하지 않습니다. 300억 건 이상의 데이터로 수집 데이터도  많긴 하지만, 실제로 서버를 운영하는 것은 분석쪽이 더 많이 들어갑니다. 분석의 경우 cpu와 같은 자원이 많이 들기에, aws를 이용하기엔 비용이 많이 듭니다. 그래서 자체적으로 서버 클러스터를 운영하고 있습니다.

    출처 : 바이브 컴퍼니 (http://vaiv.kr/business)

Q. 소피아도 머신러닝을 이용하는데, 파라미터도 계속 업데이트를 하나요?

  • 네, 매일 업데이트가 되고 있습니다. 하루에 키워드가 5백만 개 정도 됩니다. 그러면 이들 간의 연관관계를 찾기 위해 500만 x 500만 행렬을 연산해야 합니다. 저희가 최적화를 하긴 하지만 이론적으로는 25조개의 연산을 매일 매일 해야합니다. 사회의 모든 현상들을 저장하는 것을 저희는 히스토리를 저장하고 있다고 합니다. 또 이것들을 엮어내면 하나의 스토리가 된다고 생각합니다. 이런 것을 매일 블로그, 트위터 등을 통해서 계산하고 있습니다.

Q. 현재 AI 리포터도 데이터를 넣었을 때 자동으로 1분 내로 리포트를 하는 형식인데, 어떻게 보면 각 기관의 분석 도메인이 다른데도, 자동화를 만들 수 있게 된 건가요?

  • 임의의 도메인에 대해서 무작정 만드는 것은 아닙니다. 리포트의 작은 단위가 있습니다. 리포트의 요소 요소를 이루는 단위를 미리 만듭니다. 최대한 사람이 쉽게 만들 수 있도록 일정 부분을 만들어주고, 사람이 그걸 활용할 수 있도록 합니다. 여행 보고서의 경우 지자체마다 관심있는 장소가 있습니다. 이 부분에 대해 리포트를 자동으로 만든다고 하면, 우리가 어떤 지역을 여행한다고 하면 세가지 측면에서 생각해볼 수 있습니다. 하나는 사람들의 이동, 사람들이 소비하는 것, 사람들이 그 지역에 대해 어떻게 생각하는 가로 나눠 볼 수 있습니다. 이동은 통신사데이터, 소비는 신용카드 데이터를 이용할 수 있습니다. 사람들의 생각은 소셜 데이터로 얻을 수 있습니다. 전주 방문객의 추이 변화는 어떻게 되고 있고, 휴일로 요일별로 어떻게 관광객이 차이가 나는지, 어디서 와서 어디로 가는지 이런 것들을 다 파악할 수 있습니다. 소비 동향의 경우 관광 소비가 어떻게 늘어나고 있는지 분석을 한 다음에 중요한 건 멘트를 다 써서 사람들이 이 내용이 무엇에 관한지 알기 쉽게 이해하도록 해준다는 것입니다. 이런 내용들은 기계가 다 하는게 아니라 저희도 분야별로 전문가들이 있어서, 이런 레포트를 기획하는 작업을 합니다.

Q. 추후에 더 개발을 고려하는 기술이 있을까요?

  • 생각하고 있는건 전문 비서입니다. 자세하게 말씀드리긴 어렵습니다만, 미래에는 사람들 옆에 진짜 똑똑한 비서를 두고 있게 되지 않을까요? 전문 지식을 가진 비서가 필요하게 될 거 같아 그런식으로 준비하고 있습니다.

    출처 : 바이브 컴퍼니 (http://vaiv.kr/business)

Q. 바이브에선 이미지 쪽 관련하여 개발할 계획은 따로 있나요? 

  • 저희 회사에서 중요한 기술은 디지털 트윈입니다. 3d 랜더링, 인식 기술입니다. 내부적으로 그 기술을 개발하는 것 뿐만 아니라 다른 회사에 투자하거나 협업을 하는 체계로 진행을 하고 있습니다. 

Q. 인터뷰를 끝내면서, 데이터 과학자의 첫 시작의 발판으로 어떤 것을 고려하면 좋을지, 혹은 바이브만의 강점에 관해 마지막으로 말씀해주셨으면 좋겠습니다.

  • 시장의 니즈를 잘 파악하고 기술을 가지고 있으면 잘 할 수 있지 않을까요? 제가 그런 얘기를 하기엔 좀 어려운 점이 있습니다. 다만 한 가지 말씀드리자면, 저희는 오랜시간동안 기술 개발을 해왔습니다. 기술을 일관되게 가지고 온 것이죠. 저희는 기계학습, 검색엔진을 바탕으로 한 회사죠. 기술에서 중심을 잃지 않고 가려고 많은 노력을 하고 있습니다. AI 레포트 같은 것도 소피아라는 백그라운드가 없었다면 수 년이 걸렸을 수도 있어요. 분석하고 수집하고 하는 백엔드가 훨씬 더 많은데, 그런 것들이 이뤄지지 않으면 쉽지 않았을 겁니다. 여기저기에 휘둘리지 않고 일관된 흐름속에서 여기까지 기술에 바탕으로 둔 회사로 왔다는 것이 지금 현재 바이브의 강점이 됐다고 생각합니다.

<좌 :SPH 김도환 전임, 우: 바이브 컴퍼니 윤준태 연구 소장>

바쁜 시간에도 선뜻 인터뷰에 응해주신 윤준태 소장님께 다시 한 번 감사의 인사를 드립니다. 

SPH는 Google Maps, SuperMap, Maxar Technologies 등 다양한 케이스에 존재하는 다양한 제품군을 보유하고있는 고객의 사례에 꼭 맞는  무료 세미나 및 인적 컨설팅을 제공하고 있습니다. 각 케이스에 더욱 자세한 이야기를 나누고 싶으시다면,  여기 에서 문의 주시길 바라며, SPH에서 발행하는  GIS / 로케이션인텔리전스 관련 최신 소식 을 받아보고 싶으신 분들은  페이스북 페이지  또는  뉴스레터 를 구독 해 주시길 바랍니다. 감사합니다.