'Python/Crawling' 카테고리의 글 목록 (2 Page)

[Crawling] iframe

iframe이란 내부 프레임(inline frame)이라는 의미로 하나의 HTML문서 내에서 다른 HTML 문서를 보여주고자 할 때 사용 '트렌드쇼핑' 키워드를 가지고 오려했을때 url = 'https://www.naver.com/' res = req.get(url) soup = bs(res.text, 'lxml') soup.select('a.ls_link') url을 네이버 홈페이지로 지정하고 select를 하면 값이 나오지 않는다. 쇼핑캐스트가 iframe으로 지정되어 있어서 url이 다르기 때문인데 url = 'https://www.naver.com/shoppingbox/shoppingboxnew/main.nhn?mode=plusdeal&domain=N' res = req.get(url) soup ..

Python/Crawling 2022.05.19

[Crawling] 영화 데이터 수집(날짜 설정)

import requests as req from bs4 import BeautifulSoup as bs import pandas as pd url = 'https://movie.naver.com/movie/sdb/rank/rmovie.naver?sel=cur&date=20220512' res = req.get(url) soup = bs(res.text, 'lxml') title = soup.select('div.tit5 > a') # 길이 43 point = soup.select('td.point') # 길이 43 title_list=[] point_list=[] rank_list=[] for i in range(20220401, 20220431): url='https://movie.naver.com/..

Python/Crawling 2022.05.19

[Crawling] 데이터 프레임

import pandas as pd title_list = [] singer_list = [] rank_list = [] for i in range(len(title)): title_list.append(title[i].text.strip()) singer_list.append(singer[i].text.strip()) rank_list.append(i+1) dic = {'순위' : rank_list, '제목' : title_list, '가수' : singer_list} df = pd.DataFrame(dic) df = df.set_index('순위') # == df.set_index('순위', inplace = True) - 네이버 영화 랭킹 데이터 수집 url ='https://movie.naver...

Python/Crawling 2022.05.19

[Crawling] 멜론 페이지 응답받기

h = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'} url = 'https://www.melon.com/' res = req.get(url, headers = h) res soup = bs(res.text, 'lxml') soup result = soup.select('span.menu_bg') for i in result: print(i.text) url = 'https://www.melon.com/chart/index.htm' res = req.get(url, headers = h) res soup = bs..

Python/Crawling 2022.05.19

[Crawling] Beautifulsoup

Beautifulsoup(웹페이지 정보를 파싱해주는 라이브러리) - 네이버 '블로그' 단어 가져오기 url = 'https://www.naver.com/' res = req.get(url) # server로 부터 response 된 웹페이지 정보를 가져온다. # : 응답성공 res.text # res.text 실행시 웹페이지 정보 글자들을 전부 가져옴 from bs4 import BeautifulSoup as bs # 파싱할 데이터, 파싱방법 soup = bs(res.text, 'lxml') soup.select('a.nav')[2].text "soup.select('a.nav')[2].text" 실행 결과 # 1. 가져오고 싶은 데이터가 있는 url 요청 url = 'https://search.nave..

Python/Crawling 2022.05.19

[Crawling] 웹페이지 정보 가져오기

크롤링이란 주로 인터넷상의 웹페이지를 수집해서 분류하고 저장하는 것 # server로 request 하는 라이브러리 import requests as req url = 'https://www.naver.com/' req.get(url) # server로 부터 response 된 웹페이지 정보를 가져온다. # : 응답성공 url = 'https://www.melon.com/' req.get(url) # : 응답실패 응답 성공시 응답 실패시

Python/Crawling 2022.05.19

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Re:제로부터 시작하는 코딩생활

Python/Crawling 16

티스토리툴바