Python/Crawling 16

[Crawling] 이미지 태그 수집 후 폴더 저장

from selenium import webdriver as wb from selenium.webdriver.common.keys import Keys from bs4 import BeautifulSoup as bs import time import os # 파일시스템을 위한 라이브러리 ex)파일, 폴더를 생성, 삭제, 존재여부 파악 from urllib.request import urlretrieve as urlre # 이미지경로를 파일로 저장 # 폴더생성 if not os.path.isdir('./이미지3'): os.mkdir('./이미지3') print('폴더생성') # 웹페이지 제어 url = 'https://search.naver.com/search.naver?sm=tab_hty.top&wher..

Python/Crawling 2022.06.09

[Crawling] 지마켓 best 품목(상품명,가격,원산지)

# 제어할 크롬창 띄우기 url = 'http://corners.gmarket.co.kr/Bestsellers' driver = wb.Chrome() driver.get(url) # 5번 스크롤 내리기 body = driver.find_element_by_css_selector('body') for i in range(5): body.send_keys(Keys.PAGE_DOWN) time.sleep(0.1) # 이미지를 클릭후 뒤로가기 img = driver.find_elements_by_css_selector('img.lazy') for i in range(len(img)): img = driver.find_elements_by_css_selector('img.lazy') img[i].click() t..

Python/Crawling 2022.06.08

[Crawling] 유튜브 크롤링(제목 조회수 가져오기)

url = 'https://www.youtube.com/' driver = wb.Chrome() driver.get(url) # 스크롤 제어 body = driver.find_element_by_css_selector('body') # 스크롤바 10번 내리기 for i in range(10): body.send_keys(Keys.PAGE_DOWN) time.sleep(0.1) soup = bs(driver.page_source, 'lxml') # 제목 데이터 가져오기 title = soup.select('a#video-title') # 조회수 데이터 가져오기 view = soup.select('span.ytd-grid-video-renderer:nth-child(1)') title_list = [] vi..

Python/Crawling 2022.05.30

[Crawling] 한솥 제품설명 가져오기

url = 'https://www.hsd.co.kr/menu/menu_list#none' driver = wb.Chrome() driver.get(url) img = driver.find_elements_by_css_selector('a.item-cont') # 첫번째 이미지 클릭, 해당 상품으로 페이지 이동 img[0].click() soup = bs(driver.page_source, 'lxml') # 제품 설명 데이터 가져오기 c = soup.select('p.account')[0].text.strip() # 뒤로가기 driver.back() # 반복문 횟수를 정해주는 변수 img = driver.find_elements_by_css_selector('a.item-cont') c_list = [] ..

Python/Crawling 2022.05.25

[Crawling] 한솥 페이지 메뉴 가져오기

from selenium import webdriver as wb from selenium.webdriver.common.keys import Keys import pandas as pd import time from bs4 import BeautifulSoup as bs url = 'https://www.hsd.co.kr/menu/menu_list#none' driver = wb.Chrome() # 예외처리 try문에서 오류가 나면 except으로 빠짐 # 더보기 버튼을 눌러서 제일 끝까지 내리기 for i in range(10): try: btn = driver.find_element_by_css_selector('a.c_05') btn.click() time.sleep(0.3) except: pri..

Python/Crawling 2022.05.25

[Crawling] 구글 페이지(날씨 검색)

url = 'https://google.com' driver = wb.Chrome() driver.get(url) put = driver.find_element_by_css_selector('.gLFyf') put.send_keys("광주날씨") put.send_keys(Keys.ENTER) "driver.find_element_by_css_selector('.gLFyf')" 검색창 input 태그 클래스 명을 가져오고 변수 put에 저장한다. "put.send_keys("광주날씨")" 검색창에 '광주날씨'가 입력된다. "put.send_keys(Keys.ENTER)" enter키를 제어해 '광주날씨'를 검색한다.

Python/Crawling 2022.05.19

[Crawling] Selenium (Enter, Click 제어)

Selenium 웹 페이지를 제어하기 위한 모듈 !pip install selenium chrome driver 설치 from selenium import webdriver as wb url = 'https://www.naver.com/' driver = wb.Chrome() driver.get(url) put = driver.find_element_by_css_selector('#query') put.send_keys("안녕하세요") "Chrome이 자동화된 테스트 소프트웨어에 의해 제어되고 있습니다." 문구를 통해 웹페이지에 연결되어 있다는것을 확인 할 수 있다. "driver.find_element_by_css_selector('#query')" driver.find_element_by_css_se..

Python/Crawling 2022.05.19