노가다 없는 텍스트 분석을 위한 한국어 NLP

Science / Data
Difficulty Intermediate
2017-08-12 (토요일) 13:00 - 13:25
한국어
104
김현중 / soylovit
Photography and recording is allowed

Video

https://www.youtube.com/watch?v=dxkbvZmbLWc

Description

저는 한국어 텍스트 분석을 효율적으로 할 수 있는 방법들을 연구하는 대학원생입니다. 최대한 데이터기반으로 분석을 함으로써 분석가의 노동력을 최소화하는데 관심이 있습니다.

데이터 분석을 하는 사람들과 이야기를 하다보면 많은 사람들이 비슷한 부분에서 불필요한 노동력을 쓴다는 생각을 합니다. 단어를 찾아서 사전에 추가한다던지의 작업은 사람이 하지 않아도 되는 작업들을 알고리즘으로 해결하고 싶었고, 그간 고민했던 방법들을 함께 나누고 싶습니다.

여기서 이야기 하고 싶은 방법들은 (1) 단어 추출, (2) 사전을 이용하지 않는 토크나이저, (3) 명사 추출, (4) 사용자 사전과 KoNLPy를 함께 이용하는 방법입니다.