2017 대선후보 TV토론 쪼개기 (Who Spoke When?)

  • Science / Data
  • Intermediate
  • 2017-08-13 (Sun) 11:20 - 12:00
  • Korean
  • 104
  • Photography and recording is allowed

Slides

https://www.slideshare.net/hongjoo/speaker-diarization

Description

머신러닝 기술들이 대중화 되면서 개발자들이 다양한 종류의 데이터를 다루고 있습니다. 특히 딥러닝 기술이 큰 관심을 불러 모으자 텍스트 데이터는 물론 이미지 또는 영상 등 미디어 데이터와 관련된 연구개발이 더 일반화 되었습니다. 그런데 상대적으로 오디오 데이터를 다루는 내용은 그리 흔하지 않습니다. 자연어처리 기술들도 문자화된 데이터 위주로 전파되고 있고, 자연어처리를 위해 오디오 스트림에 적용해야 하는 음성인식 기술들은 그리 많이 알려져있질 않습니다. 가령 긴 오디오 스트림에 음성인식 기술을 적용하기 위해 데이터를 필요한 단위로 나누어 분류하는 전처리가 필요한데, 여기에도 머신러닝 기술이 활용됩니다. 이 발표는 일반적으로 알려진 통계 또는 클러스터링 알고리즘으로 대선후보 TV토론의 오디오 스트림을 후보자별로 나누는(Who Spoke When?) 과정을 다룹니다. 전체 과정은 Feature Extraction, Segmentation, 그리고 Clustering 의 세 단계로 나뉘며, 각각에서 이런 내용들을 다룹니다. 첫번째 단계에서 대선후보 TV토론 방송 음원을 음성인식(Speech Recognition) 또는 음악정보검색에(Music Information Retrieval) 흔히 사용되는 데이터 형식으로 변환합니다. (feature extraction; 10분) 두번째로 노이즈로 작용할 수 있는 침묵 구간을 제거하고 후보간 발언이 겹치는 구간을 구분하면서 동일한 후보의 유효한 발언 단위로 나눕니다. (segmentation; 15분) 마지막으로 나뉘어진 발언들을 클러스터링 하여 동일한 대선후보의 발언 묶음으로 분류하므로써 어떤 구간에 어떤 후보가 발언했는지 알 수 있게 합니다.(clustering; 20분) 다음은 각각의 단계에서 사용된 기술들로 이것들의 개념 또는 구현이 소개되어질 예정입니다. (Take-away items) - Mel-Frequency Cepstral Coefficient - Bayesian Information Criterion - Gaussian Mixture Model - Agglomerative Hierarchical Clustering - K-means clustering 개념 위주로 얕고 넓은 설명을 하기에 반드시 필요하진 않지만 아래 선수 지식들이 도움이 됩니다. (Pre-requisites) - Python 문법에 대한 익숙한 이해. - Pandas 또는 Numpy 의 기초적 사용법. - 통계 기초, 머신러닝 개념

Comments

blog comments powered by Disqus

Sponsors