블로그에서 연재중인 "나만의 웹 크롤러 만들기 시리즈" 가이드(https://beomi.github.io/category/howtomakewebcrawler/)에서 다루는 내용을 Requests/BeautifulSoup4/Selenium을 이용해 실제 웹 사이트를 크롤링 해보는 예제를 설명하고, VPS에 올려 crontab으로 주기적 크롤링을 하는 것까지를 상세한 설명으로 다룹니다.
- 예상 진행순서 -
- 웹 크롤러 환경 설정 with PyPi
- 크롬 '검사(Inspect)기능 설명 및 HTML의 id(#) / class(.)통한 css selector 설명
- 로그인 필요없는 경우 -
- requests 모듈 설명 / HTML Parser 설명
- BeautifulSoup4 설명 / CSS 셀렉터로 요소 추출하기
- 뽑아낸 요소 json/txt등으로 저장
- 로그인 필요한 경우 -
- 간단하게 html form만으로 확인 가능한 예제(클리앙 등)
- 복잡한 로그인이 필요한 경우 -
- Selenium을 이용한 크롤링, Chrome와 PhantomJS를 이용하기
- VPS에 올려 CronTab으로 주기적으로 크롤링 동작