Python/Crawling
[Crawling] Beautifulsoup
퓨어맨
2022. 5. 19. 08:52
Beautifulsoup(웹페이지 정보를 파싱해주는 라이브러리)
- 네이버 '블로그' 단어 가져오기
url = 'https://www.naver.com/'
res = req.get(url) # server로 부터 response 된 웹페이지 정보를 가져온다.
# <Response [200]> : 응답성공
res.text
# res.text 실행시 웹페이지 정보 글자들을 전부 가져옴
from bs4 import BeautifulSoup as bs
# 파싱할 데이터, 파싱방법
soup = bs(res.text, 'lxml')
soup.select('a.nav')[2].text
"soup.select('a.nav')[2].text" 실행 결과
# 1. 가져오고 싶은 데이터가 있는 url 요청
url = 'https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=%ED%8C%8C%EC%9D%B4%EB%A6%AC'
res = req.get(url)
# 2. 가져온 웹페이지 정보 파싱
soup = bs(res.text, 'lxml')
soup
# 3. select를 활용하여 원하는 데이터 가져오기
soup.select('a.link_tit')[0].text
실행 결과