KoNLPy(http://konlpy.org)를 쓰면 이제 파이썬으로도 형태소 분석을 하거나 워드클라우드를 그릴 수 있다던데, 이거 말고 또 할 수 있는건 없나요?
있습니다!
파이썬의 유명한 자연어 처리 패키지 NLTK(http://nltk.org)를 활용하면 문서 안의 내용을 빠르게 탐색하거나 요약할 수 있고, 토픽 모델링을 지원하는 패키지 Gensim(http://radimrehurek.com/gensim/)을 사용하면 여러 문장이나 문서에 내재되어 있는 규칙, 또는 토픽들을 찾아낼 수 있다.
이 발표에서는 먼저 bag-of-words, document embedding 등 컴퓨터가 문서를 잘 분석할 수 있게 하는 다양한 텍스트의 표현 방법에 대해 살펴본 후, KoNLPy, NLTK, Gensim 등의 라이브러리를 실제 한국어 문서들에 적용해본다.