한국어와 NLTK, Gensim의 만남

PyCon Korea Red PyCon Korea Blue
  • Python Application
  • 2015-08-29 (Sat) 17:00 - 18:00
  • Korean
  • 국제회의실
  • Photography and recording is not allowed

Slide

http://slideshare.net/lucypark/nltk-gensim

Description

KoNLPy(http://konlpy.org)를 쓰면 이제 파이썬으로도 형태소 분석을 하거나 워드클라우드를 그릴 수 있다던데, 이거 말고 또 할 수 있는건 없나요?
있습니다!

파이썬의 유명한 자연어 처리 패키지 NLTK(http://nltk.org)를 활용하면 문서 안의 내용을 빠르게 탐색하거나 요약할 수 있고, 토픽 모델링을 지원하는 패키지 Gensim(http://radimrehurek.com/gensim/)을 사용하면 여러 문장이나 문서에 내재되어 있는 규칙, 또는 토픽들을 찾아낼 수 있다.

이 발표에서는 먼저 bag-of-words, document embedding 등 컴퓨터가 문서를 잘 분석할 수 있게 하는 다양한 텍스트의 표현 방법에 대해 살펴본 후, KoNLPy, NLTK, Gensim 등의 라이브러리를 실제 한국어 문서들에 적용해본다.

Comments

blog comments powered by Disqus

Sponsor list


Diamond


Financial Aid Sponsor


Platinum


Venue


Gold


Silver


Media