바뀜

둘러보기로 가기 검색하러 가기
937 바이트 추가됨 ,  2021년 4월 20일 (화) 19:44
새 문서: == 개요 == 웹 크롤링은 다음과 같은 절차를 거쳐 이루어진다. #HTML을 가져오고 #이 안에서 의미 있는 데이터를 뽑아내는 게 일반적인 절차....
== 개요 ==
웹 크롤링은 다음과 같은 절차를 거쳐 이루어진다.
#HTML을 가져오고
#이 안에서 의미 있는 데이터를 뽑아내는 게 일반적인 절차.
{| class="wikitable"
!사용
!라이브러리
!설명
|-
|URL 다루기
|urllib
|url을 다루는 모듈을 모아둔 패키지. 다양한 모듈을 포함하고 있다.
위 절차에서 1번에 해당되는 일을 처리한다.
|-
|HTML 크롤링
|[http://id8436.iptime.org:8080/mediawiki/index.php/Beautifulsoup4 beautifulsoup4]
|위 절차에서 2번에 해당되는 일을 처리한다.
|-
|HTML 동적 크롤링
|[http://id8436.iptime.org:8080/mediawiki/index.php/Selenium selenium]
|동적 웹사이트에선 beautifulsoup만으로는 정보를 긁어오지 못한다. 로그인을 해야 한다든가, 매번 변수가 업데이트 된다든가..
그런 경우엔 셀레니움으로 작업을 진행해야 한다.
|}
[[분류:웹 라이브러리]]

둘러보기 메뉴