Python urlopen의 HTTP Error 403: Forbidden

2020. 6. 18. 20:13서버 프로그래밍

urlopen과 BeautifulSoup을 이용하여 웹사이트에서 정보를 파싱하는 기능을 구현했는데, 적지 않은 외국 사이트에서 "HTTP Error 403: Forbidden" 에러가 발생했다. 아마도 외국 사이트들은 쿠키 사용을 승인 받는 팝업이 뜨는 것 때문에 정상적으로 결과값을 가져오지 못하는 것으로 추정된다. 별의별 방법으로 대안을 만들어도 안되기에...

from urllib.request import urlopen
from bs4 import BeautifulSoup

word = 'house'
r = urlopen('https://www.google.pl/search?&dcr=0&tbm=isch&q='+word)
data = r.read()

https://stackoverflow.com/questions/47594331/python-3-urlopen-http-error-403-forbidden

 

Python 3, urlopen - HTTP Error 403: Forbidden

I'm trying to download automatically the first image which appears in the google image search but I'm not able to read the website source and an error occurs ("HTTP Error 403: Forbidden"). Any ideas?

stackoverflow.com

그래서 아예 방법을 바꿔서 해보았더니 너무나 잘된다. 뭐냐 이게...

import requests
r = requests.get('https://sneakernews.com/category/adidas/')
html = r.text

https://stackhoarder.com/2019/08/18/python%EB%B6%80%ED%84%B0-web-scraping-%EA%B9%8C%EC%A7%80-%EC%B5%9C%EB%8B%A8-%EC%8B%9C%EA%B0%84%EC%97%90-%EC%9D%B5%ED%98%80%EB%B3%B4%EC%9E%90/

 

Python부터 Web Scraping 까지 최단 시간에 익혀보자 - Stack Hoarder

Web Scraping 개념이 Crawling 보단 큰 개념으로 사용되고 있었습니다. 웹에서 데이터를 추출에 대한 정보를 얻고 싶은 경우에는 Web Scraping 이란 키워드로 검색하는 경우에 많은 정보를 얻을 수 있었습

stackhoarder.com