뉴스를 재미있게 만드는 방법; 뉴스잼

  • 서비스와 웹 개발
  • 2016-08-13 (토요일) 14:40 - 15:20
  • 한국어
  • 101
  • Photography and recording is allowed

Slide

http://www.slideshare.net/koorukuroo/20160813-pycon2016apac

Video

https://youtu.be/Txj4MzqL_Mk

PDF

https://github.com/pythonkr/pyconapac-2016-files/raw/master/20160813-101-1-KimKyunghoon.pdf

Description

특별한 이야기가 아닌 가장 일반적인 이야기입니다.

대상 청중 1 : 파이썬이 익숙하지 않고, 파이썬으로 무엇을 할 수 있는지 궁금하다
대상 청중 2 : 파이썬으로 데이터를 분석하는 가장 일반적인 예제를 보고 싶다


크게 데이터 수집, 분석, 전달로 구성되어 있습니다.

기존에 PyCon에서 발표된 내용은 그 내용을 참고하도록 소개하고, 전체적인 흐름을 설계하기 위한 기본적인 내용과 파이썬 라이브러리를 활용하여 직접 프로그래밍 할 수 있는 지침을 제공합니다.


1. 뉴스를 재미있게 만들기 위한

    :: 수집

1.1 데이터 수집 하기

1.1.0 데이터 소스

1.1.1 라이브러리 urllib2, request, mechanize

1.1.2 라이브러리 chardet, unidecode

1.1.3 라이브러리 pyspider, feedparser

1.1.4 라이브러리 robobrowser


1.2 데이터 파싱하기

1.2.1 라이브러리 beautifulsoup, lxml, pyparsing

1.2.2 라이브러리 python-goose

1.2.3 라이브러리 newspaper


1.3 데이터 저장하기

1.3.1 라이브러리 PyMongo

1.3.2 Cloud Service (mongolab, aws, azure)



2. 뉴스를 재미있게 만드는

   :: 분석

2.1 데이터의 전처리

2.1.1 형태소 분석기

2.1.2 라이브러리 Konlpy, umorpheme

2.1.3 docker를 활용한 휴대용 형태소 분석

2.1.4 라이브러리 NLTK, textblob


2.2 뉴스를 분류하기

2.2.1 LSI (Latent Semantic Indexing)

2.2.2 행렬의 계산

2.2.3 라이브러리 gensim


2.3 뉴스를 군집하기

2.3.1 NMF (Non-negative Matrix Factorization)

2.3.2 라이브러리 nimfa


2.4 토픽모델링

2.4.1 LDA (Latent Dirichlet Allocation)

2.4.2 라이브러리 gensim, pyLDAvis


2.5 네트워크 만들기

2.5.1 뉴스 네트워크

2.5.2 라이브러리 networkx

2.5.3 라이브러리 pynetviz


3. 뉴스를 재미있게 이용하는

   :: 전달

3.1 웹으로 데이터 보여주기

3.1.1 라이브러리 Flask


3.2 시각화하기

3.2.1 라이브러리 seaborn


3.3 검색하기

3.3.1 라이브러리 elasticsearch-py

Comments

blog comments powered by Disqus

Sponsors

키스톤

다이아몬드

플래티넘

골드

스타트업

실버

미디어