Python网络请求,python网络爬虫爬取数据
本文主要介绍Python爬虫的网络要求。本文基于Python介绍了网络请求,有需要的可以参考一下。
00-1010 1.IP代理2.Cookie3 .异常处理
目录
有些网站会检测某个IP在某段时间内的访问次数,如果访问次数过多,就会禁止访问。这时候就需要设置一些代理服务器,每隔一段时间就换一个代理。知识产权代理的分类:
透明代理:的目标网站可以知道使用了代理和源IP地址,明显不符合要求;匿名代理:的目标网站知道使用了代理,但不知道源IP地址;对高匿代理:来说,最安全的方法是目标网站既不知道代理也不知道源IP地址。
1.IP代理
解决http的无状态性,第一次向服务器发送请求时,服务器生成一个Cookie作为请求头,存储在浏览器中;再次发送请求时,浏览器将携带Cookie信息。
导入urllib.request
从http导入cookiejar
filename=cookie.txt
#获取饼干
def get_cookie():
#实例化一个MozillaCookieJar来存储cookie
cookie=cookiejar。MozillaCookieJar(文件名)
#创建处理程序对象
handler=URL lib . request . httpcookieprocessor(cookie)
#创建一个打开器对象
opener=URL lib . request . build _ opener(处理程序)
#请求URL
URL= https://tie ba . Baidu.com/index . html?traceid=#
Resp=opener.open(url) #发送请求
#存储cookie文件
cookie.save()
#读取cookie
def use_cookie():
#实例化MozillaCookieJar
cookie=cookiejar。MozillaCookieJar()
#加载cookie文件
cookie.load(文件名)
打印(cookie)
get_cookie()
使用cookie()
2.Cookie
urllib.error.URLError:用于捕获urllib.request生成的异常,reason属性用于返回错误原因。
导入urllib.request
导入urllib.error
url=http://www.google.com
尝试:
resp=URL lib . request . urlopen(URL)
除了urllib.error.URLError作为e:
打印(原因)
输出结果:
[WinError 10060]连接尝试失败,因为连接方在一段时间后没有正确回复,或者连接的主机没有响应。
urllib.error.HTTPError:用来处理HTTP和HTTPS请求的错误,
有三个属性:
代码:请求返回的状态代码原因:返回的错误原因标头:请求importurllib.request返回的响应标头信息。
导入urllib.error
url=https://movie.douban.com/
尝试:
resp=URL lib . request . urlopen(URL)
除了urllib.error.HTTPError作为e:
打印(原因:,e .原因)
打印(响应状态代码:,str(e.code))
打印(响应标题数据:,e.headers)
关于Python爬虫的web请求这篇文章到此为止。有关Python web request的更多信息,请搜索热门IT软件开发工作室之前的文章或继续浏览下面的相关文章。希望你以后能支持风行IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。