나만의 웹 크롤러 만들기

  • Best Practices & Patterns
  • Difficulty Beginner
  • 2017-08-13 (Sun) 14:20 - 15:00
  • Korean
  • 201
  • Photography and recording is allowed

Video

https://youtu.be/KwiNvOgtRdo

Description

블로그에서 연재중인 "나만의 웹 크롤러 만들기 시리즈" 가이드(https://beomi.github.io/category/howtomakewebcrawler/)에서 다루는 내용을 Requests/BeautifulSoup4/Selenium을 이용해 실제 웹 사이트를 크롤링 해보는 예제를 설명하고, VPS에 올려 crontab으로 주기적 크롤링을 하는 것까지를 상세한 설명으로 다룹니다. - 예상 진행순서 - - 웹 크롤러 환경 설정 with PyPi - 크롬 '검사(Inspect)기능 설명 및 HTML의 id(#) / class(.)통한 css selector 설명 - 로그인 필요없는 경우 - - requests 모듈 설명 / HTML Parser 설명 - BeautifulSoup4 설명 / CSS 셀렉터로 요소 추출하기 - 뽑아낸 요소 json/txt등으로 저장 - 로그인 필요한 경우 - - 간단하게 html form만으로 확인 가능한 예제(클리앙 등) - 복잡한 로그인이 필요한 경우 - - Selenium을 이용한 크롤링, Chrome와 PhantomJS를 이용하기 - VPS에 올려 CronTab으로 주기적으로 크롤링 동작

Comments

blog comments powered by Disqus

Sponsors