본문 바로가기
{Programing}/Python

beautifulsoup

by 탱타로케이 2021. 5. 12.

웹 크롤링시 필수적인 패키지.

requests 패키지를 이용해 요청후 응답온 HTML 데이터를 조작할수 있음.

원하는 html 태그를 검색하거나, css 선택자를 검색하여 원하는 데이터를 뽑아낸다.

무단으로 임의의 홈페이지에 크롤링을 하면 위법행위가 될수 있으니 미리 확인하고 해야한다.

robots.txt 파일이 있는지 확인해야하고, 그 파일에 저장된 규약이 어디까지 허용하는지 확인해야함.

 

 

www.crummy.com/software/BeautifulSoup/bs4/doc/

 

Beautiful Soup Documentation — Beautiful Soup 4.9.0 documentation

Non-pretty printing If you just want a string, with no fancy formatting, you can call str() on a BeautifulSoup object (unicode() in Python 2), or on a Tag within it: str(soup) # ' I linked to example.com ' str(soup.a) # ' I linked to example.com ' The str(

www.crummy.com

 

searchadvisor.naver.com/guide/seo-basic-robots

 

robots.txt 설정하기

robots.txt는 검색로봇에게 사이트 및 웹페이지를 수집할 수 있도록 허용하거나 제한하는 국제 권고안입니다. robots.txt 파일은 항상 사이트의 루트 디렉터리에 위치해야 하며 로봇 배제 표준을 따

searchadvisor.naver.com

 

ko.wikipedia.org/wiki/%EB%A1%9C%EB%B4%87_%EB%B0%B0%EC%A0%9C_%ED%91%9C%EC%A4%80

 

로봇 배제 표준 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 로봇 배제 표준(robots exclusion standard), 로봇 배제 프로토콜(robots exclusion protocol)은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로, 일반적으로 접근

ko.wikipedia.org

 

'{Programing} > Python' 카테고리의 다른 글

Cheat Sheet : Math Funtions  (0) 2023.02.04
Python Cheat Sheet  (0) 2023.02.04
Requests  (0) 2021.05.12
keras  (0) 2021.05.10
tensorflow  (0) 2021.05.10

댓글