반응형

from bs4 import BeautifulSoup as bs

from requests.exceptions import ProxyError, SSLError, ConnectTimeout
from fp.fp import FreeProxy
from user_agent import generate_user_agent, generate_navigator

 

ua=generate_user_agent(device_type='desktop')#user_agent를 이용해 생성
proxy_server = FreeProxy(https=True, timeout=5).get()#freeproxy를 이용해서 proxy가져옴
proxies = {"http": proxy_server, 'https': proxy_server}
headers = {
    'User-Agent': ua
}

while True:
    try:

        post_one = requests.get(url, headers=headers, proxies=proxies, timeout=5)

        psource = post_one.text
        soup = bs(psource, 'html.parser') # Soup으로 만들어 줍시다.
        break

    except (ProxyError, SSLError, ConnectTimeout) as e:        
        print(e)
        continue

print(soup)

 

크롤링하다가 ip로 막히는 경우가 생길때 써보면 된다. 

없는 프로그램은 설치해서 해보자

반응형

+ Recent posts