소개
머신러닝 알고리즘들을 책이나 강의 등을 통해 공부한 뒤 실제로 무언가를 해보려고 했을 때에 맞닿게 되는 답답함 같은 게 있을 겁니다. 그것은 학습한 이론이 프로그래밍 언어 또는 도구로 연결되지 않기 때문일 수도 있지만, 일상에서 얻은 데이터가 책이나 강의에서 사용된 예제들처럼 잘 가공되어 피쳐화(feature) 되어있지 않거나 레이블(label) 정보가 없기 때문일 수도 있습니다.
본 발표는 19대 국회의원들의 의안표결결과, 회의록 내용, 그리고 정치자금 사용내역 등의 RAW 데이터들을 소재로 Python 을 사용하여 데이터를 가공하고 피쳐화하는 데서부터 모델링 까지의 과정을 다룹니다. 레이블 정보가 없을 때 유용한 클러스터링 기법들로 다양한 내용과 형태의 데이터들을 다루게 됩니다.
발표에서 사용할 데이터는 국회에서 공개된 내용을 크롤링하였거나 언론사에서 공개한 객관적인 자료들입니다. 이를 바탕으로 분석 기술들을 시연할 뿐, 정치적 내용은 포함하고 있지 않습니다.
Pre-requisites
- Python 문법에 대한 익숙한 이해.
- Pandas 또는 Numpy 의 기초적 사용법.
Take-away items
- 머신러닝 과정의 기초적 이해
- 머신러닝을 위한 다양한 형태의 데이터 처리 방법 in Python
- 머신러닝의 과정에서 어떤 Python 도구들이 어떻게 사용되는지 소개
사용 도구
- 시연 : Jupyter notebook
- 분석 : Pandas, Numpy, SciPy, Sci-Kit Learn, Spark
- 시각화 : matplotlib, Lightning Viz
1.2. 의원별 표결내용 군집화
1.3. 차원 축소 및 시각화
2.2. 의원별 소비성향 클러스터링 및 시각화
3.4. 차원 축소 및 시각화