Python/Crawling

[Crawling] Beautifulsoup

퓨어맨 2022. 5. 19. 08:52

Beautifulsoup(웹페이지 정보를 파싱해주는 라이브러리)

- 네이버 '블로그' 단어 가져오기

url = 'https://www.naver.com/'
res = req.get(url) # server로 부터 response 된 웹페이지 정보를 가져온다.

# <Response [200]> : 응답성공 

res.text
# res.text 실행시 웹페이지 정보 글자들을 전부 가져옴

from bs4 import BeautifulSoup as bs

# 파싱할 데이터, 파싱방법
soup = bs(res.text, 'lxml')

soup.select('a.nav')[2].text

"soup.select('a.nav')[2].text" 실행 결과

 

 

# 1. 가져오고 싶은 데이터가 있는 url 요청
url = 'https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=%ED%8C%8C%EC%9D%B4%EB%A6%AC'
res = req.get(url)

# 2. 가져온 웹페이지 정보 파싱
soup = bs(res.text, 'lxml')
soup

# 3. select를 활용하여 원하는 데이터 가져오기
soup.select('a.link_tit')[0].text

 

실행 결과