"웹 라이브러리"의 두 판 사이의 차이
둘러보기로 가기
검색하러 가기
(새 문서: == 개요 == 웹 크롤링은 다음과 같은 절차를 거쳐 이루어진다. #HTML을 가져오고 #이 안에서 의미 있는 데이터를 뽑아내는 게 일반적인 절차....) |
(→개요) |
||
11번째 줄: | 11번째 줄: | ||
|urllib | |urllib | ||
|url을 다루는 모듈을 모아둔 패키지. 다양한 모듈을 포함하고 있다. | |url을 다루는 모듈을 모아둔 패키지. 다양한 모듈을 포함하고 있다. | ||
+ | 위 절차에서 1번에 해당되는 일을 처리한다. | ||
+ | |- | ||
+ | | | ||
+ | |requests | ||
+ | |HTTP 응답을 주고받는 기능을 돕는다. | ||
위 절차에서 1번에 해당되는 일을 처리한다. | 위 절차에서 1번에 해당되는 일을 처리한다. | ||
|- | |- |
2021년 4월 20일 (화) 19:45 기준 최신판
개요[편집 | 원본 편집]
웹 크롤링은 다음과 같은 절차를 거쳐 이루어진다.
- HTML을 가져오고
- 이 안에서 의미 있는 데이터를 뽑아내는 게 일반적인 절차.
사용 | 라이브러리 | 설명 |
---|---|---|
URL 다루기 | urllib | url을 다루는 모듈을 모아둔 패키지. 다양한 모듈을 포함하고 있다.
위 절차에서 1번에 해당되는 일을 처리한다. |
requests | HTTP 응답을 주고받는 기능을 돕는다.
위 절차에서 1번에 해당되는 일을 처리한다. | |
HTML 크롤링 | beautifulsoup4 | 위 절차에서 2번에 해당되는 일을 처리한다. |
HTML 동적 크롤링 | selenium | 동적 웹사이트에선 beautifulsoup만으로는 정보를 긁어오지 못한다. 로그인을 해야 한다든가, 매번 변수가 업데이트 된다든가..
그런 경우엔 셀레니움으로 작업을 진행해야 한다. |