Topic Modeling & Word Embedding 그리고 화장품

Slide


https://www.slideshare.net/hongjoo/topic-modeling-word-embedding-on-cosmetics

Video


https://www.youtube.com/watch?v=F4sIkIlGG78

Description


오늘날 기업들은 소셜미디어의 온라인 리뷰 분석을 통해 인사이트를 발굴하여 비즈니스적으로 가치를 창출할 수 있게 되었고, 특정 주제에 대한 소비자의 특성과 시장 트렌드를 파악하는 데 몰두하고 있습니다. 이용자들 또한 기존의 수동적 콘텐츠 소비자에서 지식과 정보의 생산과 소비를 동시에 주도하는 프로슈머로 거듭났습니다.

이런 시장의 요구사항은 자연어처리 분야 중 topic modeling 기술의 진보를 이끌어냈고 최근엔 word embedding 기술의 접목까지 활발해졌습니다. 이러한 기술들은 이미 Python 라이브러리 형태로 구현되어있어 많은 분석가들과 프로그래머들에게 이용되고 있고, 자연어처리 기술들을 시장에 적용하는 데 Python 이 두드러지게 큰 몫을 차지하고 있다 할 수 있겠습니다.

그런데 분석가 또는 프로그래머들이 격게 되는 어려움은 데이터의 해석에 있습니다. 충분한 도메인 지식이 없을 때 분석 결과를 읽고 해석하는 것은 어렵거나 잘못된 결과를 도출하기 십상입니다. 도메인 전문가에게 있어서도 계수 또는 확률 분포 따위의 숫자이거나 상관관계를 찾기 어려운 워드 클러스터 형태의 결과물이 단번에 인사이트를 주기 어렵기 때문에 많은 시행착오를 경험해야 합니다.

이 발표는 그런 어려움을 어느정도 해소할 수 있는 방법을 제안합니다. 7만여종의 화장품에 9만여명의 소비자가 남긴 리얼 리뷰 2백만여개의 리뷰를 분석하고 화장품들의 특성과 그 화장품을 이용하는 사람들을 이해하는 과정에 대해 소개합니다. Topic modeling 과 word embedding 기술을 소개하고, 리뷰 데이터를 어떻게 모델링하는지 데모합니다. 그리고 데이터 분석가 또는 프로그래머와, 도메인 전문가 사이에 반복적인 시행착오의 고통을 줄여주기 위한 데이터의 인터렉티브 시각화를 시연합니다.

아래와 같은 기술들의 개념과 프로그래밍이 다뤄집니다.
- Topic Modeling : Latent Dirichlet Analysis
- Word Embedding : Word2Vec
- Visualization : pyLDAvis, TensorBoard, Scattertext


Comments

blog comments powered by Disqus

Sponsors

다이아몬드

사파이어

플래티넘

골드

실버

커뮤니티

미디어