2017 대선후보 TV토론 쪼개기 (Who Spoke When?)

Science / Data
Difficulty Intermediate
2017-08-13 (일요일) 11:20 - 12:00
한국어
104
이홍주 / leehongjoo
Photography and recording is allowed

Slide

https://www.slideshare.net/hongjoo/speaker-diarization

Description

이 발표는 일반적으로 알려진 통계 또는 클러스터링 알고리즘으로 대선후보 TV토론의 오디오 스트림을 후보자별로 나누는(Who Spoke When?) 과정을 다룹니다. 전체 과정은 Feature Extraction, Segmentation, 그리고 Clustering 의 세 단계로 나뉘며, 각각에서 이런 내용들을 다룹니다.

1. Feature Extraction : 첫번째 단계에서 대선후보 TV토론 방송 음원을 음성인식(Speech Recognition) 또는 음악정보검색에(Music Information Retrieval) 흔히 사용되는 데이터 형식으로 변환합니다.

2. Segmentation : 두번째로 노이즈로 작용할 수 있는 침묵 구간을 제거하고 후보간 발언이 겹치는 구간을 구분하면서 동일한 후보의 유효한 발언 단위로 나눕니다.

3. Clustering : 마지막으로 나뉘어진 발언들을 클러스터링 하여 동일한 대선후보의 발언 묶음으로 분류하므로써 어떤 구간에 어떤 후보가 발언했는지 알 수 있게 합니다.

Take-away items : 각각의 단계에서 사용된 기술들로 아래의 개념 또는 구현이 소개되어질 예정입니다.

- Mel-Frequency Cepstral Coefficient

- Bayesian Information Criterion

- Gaussian Mixture Model

- Agglomerative Hierarchical Clustering

- K-means clustering