Python/Crawling 16

[Crawling] iframe

iframe이란 내부 프레임(inline frame)이라는 의미로 하나의 HTML문서 내에서 다른 HTML 문서를 보여주고자 할 때 사용 '트렌드쇼핑' 키워드를 가지고 오려했을때 url = 'https://www.naver.com/' res = req.get(url) soup = bs(res.text, 'lxml') soup.select('a.ls_link') url을 네이버 홈페이지로 지정하고 select를 하면 값이 나오지 않는다. 쇼핑캐스트가 iframe으로 지정되어 있어서 url이 다르기 때문인데 url = 'https://www.naver.com/shoppingbox/shoppingboxnew/main.nhn?mode=plusdeal&domain=N' res = req.get(url) soup ..

Python/Crawling 2022.05.19

[Crawling] 데이터 프레임

import pandas as pd title_list = [] singer_list = [] rank_list = [] for i in range(len(title)): title_list.append(title[i].text.strip()) singer_list.append(singer[i].text.strip()) rank_list.append(i+1) dic = {'순위' : rank_list, '제목' : title_list, '가수' : singer_list} df = pd.DataFrame(dic) df = df.set_index('순위') # == df.set_index('순위', inplace = True) - 네이버 영화 랭킹 데이터 수집 url ='https://movie.naver...

Python/Crawling 2022.05.19

[Crawling] Beautifulsoup

Beautifulsoup(웹페이지 정보를 파싱해주는 라이브러리) - 네이버 '블로그' 단어 가져오기 url = 'https://www.naver.com/' res = req.get(url) # server로 부터 response 된 웹페이지 정보를 가져온다. # : 응답성공 res.text # res.text 실행시 웹페이지 정보 글자들을 전부 가져옴 from bs4 import BeautifulSoup as bs # 파싱할 데이터, 파싱방법 soup = bs(res.text, 'lxml') soup.select('a.nav')[2].text "soup.select('a.nav')[2].text" 실행 결과 # 1. 가져오고 싶은 데이터가 있는 url 요청 url = 'https://search.nave..

Python/Crawling 2022.05.19