이 문서는

파이썬을 이용해서 웹 크롤링을 하는 예제를 정리했다.

웹 크롤링이 뭐고, 무엇이 좋은가

웹 페이지 내에 있는 특정 데이터를 자동화 프로그램을 이용해 수집하는 것을 웹 크롤링이라고 한다. 통상 원하는 정보를 찾기 위해 인터넷 검색을 하지만 내가 원하지 않는 정보들(광고, 상관없는 그림, 동영상)이 너무나 많다. 예전에는 대부분의 사이트들에서 RSS 를 지원했지만, 점차 줄어들고 있는 추세다. 전체 데이터 중에서 원하는 정보만 찾아서 볼 수 있기 때문에 좀 더 효율적인 인터넷 생활이 가능하다.

개발환경 만들기

여기서는 python 이라는 프로그래밍 언어를 사용해서 웹 크롤링을 할 것이다. 예전에는 '아나콘다' 나 '주피터 노트북' 같은 개발 프로그램을 PC 에 설치해야만 했었다. 지금은 더 간단하게 개발환경을 만들 수 있다.
아래 사이트에 접속하자. 구글 계정이 있다면, 바로 사용이 가능하다.

https://colab.research.google.com/

자세한 사용방법은 여기 를 참고한다.

  • computer/programming/웹_크롤링_핵심가이드.txt
  • Last modified: 9 months ago
  • by likewind