뉴스를 재미있게 만드는 방법; 뉴스잼

  • Service and Web development
  • 2016-08-13 (Sat) 14:40 - 15:20
  • Korean
  • 101
  • Photography and recording is allowed

Slide

http://www.slideshare.net/koorukuroo/20160813-pycon2016apac

Video

https://youtu.be/Txj4MzqL_Mk

PDF

https://github.com/pythonkr/pyconapac-2016-files/raw/master/20160813-101-1-KimKyunghoon.pdf

Description

크게 데이터 수집, 분석, 전달로 구성되어 있습니다.

기존에 PyCon에서 발표된 내용은 그 내용을 참고하도록 소개하고, 전체적인 흐름을 설계하기 위한 기본적인 내용과 파이썬 라이브러리를 활용하여 직접 프로그래밍 할 수 있도록 지침을 제공합니다.


0. 2015 Pycon 피드백

0-1. Pycon 발표자 네트워크 링크 예측


1. 뉴스를 재미있게 만들기 위한

    :: 수집

1.1 데이터 수집 하기

1.1.0 데이터 소스

1.1.1 라이브러리 urllib2, request, mechanize

1.1.2 라이브러리 chardet, unidecode

1.1.3 라이브러리 pyspider, feedparser

1.1.4 라이브러리 robobrowser


1.2 데이터 파싱하기

1.2.1 라이브러리 beautifulsoup, lxml, pyparsing

1.2.2 라이브러리 python-goose

1.2.3 라이브러리 newspaper


1.3 데이터 저장하기

1.3.1 라이브러리 PyMongo

1.3.2 Cloud Service (mongolab, aws, azure)



2. 뉴스를 재미있게 만드는

   :: 분석

2.1 데이터의 전처리

2.1.1 형태소 분석기

2.1.2 라이브러리 Konlpy, umorpheme

2.1.3 docker를 활용한 휴대용 형태소 분석

2.1.4 라이브러리 NLTK, textblob


2.2 뉴스를 분류하기

2.2.1 LSI (Latent Semantic Indexing)

2.2.2 행렬의 계산

2.2.3 라이브러리 gensim


2.3 뉴스를 군집하기

2.3.1 NMF (Non-negative Matrix Factorization)

2.3.2 라이브러리 nimfa


2.4 토픽모델링

2.4.1 LDA (Latent Dirichlet Allocation)

2.4.2 라이브러리 gensim, lda


2.5 네트워크 만들기

2.5.1 뉴스 네트워크

2.5.2 라이브러리 networkx

2.5.3 라이브러리 pynetviz


3. 뉴스를 재미있게 이용하는

   :: 전달

3.1 웹으로 데이터 보여주기

3.1.1 라이브러리 Flask


3.2 시각화하기

3.2.1 라이브러리 seaborn


3.3 검색하기

3.3.1 라이브러리 elasticsearch-py

Comments

blog comments powered by Disqus

Sponsors

Keystone

Diamond

Platinum

Gold

Startup

Silver

Media