python中的urllib库,urllib3包括urllib吗
1.urllib urllib是Python中请求url连接的官方标准库。在Python2中主要是urllib和urllib2,在Python3中集成到urllib中。urllib中有四个模块,如下所示:
Request:主要负责构造和发起网络请求,定义适合在各种复杂情况下打开URL(主要是HTTP)的函数和类。错误:处理异常分析:分析各种数据格式。robotparser:正在解析robot.txt文件1.urllib。请求模块中最常用的函数是urllib.request.urlopen(),具有以下参数:
Urllib.request.urlopen (URL,data=none,[timeout,] *,cafile=none,capath=none,cadefault=false,context=none) URL:请求的URL数据:要发送到服务器的数据超时:设置网站的访问超时urlopern返回对象提供方法:
Read()、readline()、readlines()、fileno()、close():对HTTPResponse类型的数据进行操作。info():返回一个HTTPMessage对象,指示远程服务器返回的头信息。getcode():返回Http状态代码。如果是http请求,则200请求成功完成;44未找到URL geturl():返回请求的url(1)发送简单的GET请求:
From urllib导入请求response=request . urlopen( https://www . Baidu . com )print(response . read()。decode())在urlopern()方法中,直接写要访问的url地址字符串,这个方法会主动访问目标URL,然后返回访问结果。返回的访问结果是http.client.HTTPResponse对象。使用这个对象的read()方法,我们可以获得访问网页所获得的数据。这些数据是二进制格式的,所以我们还需要使用decode()方法对获得的二进制数据进行解码,转换成我们可以读取的可理解的字符串。
(2)发送简单的POST请求:
从urllib导入reuqestresponse=request . urlopen( http://http bin . org/post ,Data=b word=hello )打印(响应。阅读()。decode () # decode()解码在urlapen()方法中,urlapen()的默认访问方法是GET。当在urlapen()方法中传递数据参数时,将启动一个POST请求。注意:传递的data数据需要为bytes格式
(3)复杂的请求——请求头
当我们需要模拟一些其他参数时,简单的urlopen()方法已经不能满足我们的需求。这时,我们需要使用urllib.request中的Request对象来帮助我们模拟一些其他的参数,比如请求头。
请求对象如下:
#请求对象实例化req=urllib.request.request (URL,data=none,headers={},origin _ req _ host=none,unverifiable=false,method=none)举例如下:
从urllib导入请求URL= http://http bin . org/get headers={ user-agent : Mozilla/5.0(Macintosh;英特尔OS X 10 _ 13 _ 5)\ Apple WebKit/537.36(KHTML,和GECKO一样)Chrome/66 . 0 . 3359 . 181 Safari/537.36 } #需要使用url和headers生成一个请求对象,然后将其传入urlopen方法req=request.request (URL,headers=headers)resp=Request . urlopern(req)print(resp . read()。decode())
(4)复杂的请求—代理IP
用爬虫抓取数据时,如果访问太频繁,网站有限制,很可能我们的ip地址会被封禁。这时候就需要设置一个代理来隐藏我们的真实IP。
代理IP的原理:以本机先访问代理IP,再通过代理IP地址访问服务器,这样服务器接受到的访问IP就是代理IP地址。
Urllib提供了urllib.request.ProxyHandler()方法来动态设置代理IP池。代理IP以字典的形式传入这个方法,然后通过urllib.reques.build_opener()创建opener对象,请求由这个对象的open()方法发送到服务器。
从urllib导入请求URL= http://httpbin . org/IP proxy={ http : 218 . 18 . 232 . 26:80 ,Https : 218 . 18 . 232 . 26:80 } proxy=request . proxy handler(proxy)# Create proxy handler opener=request . build _ opener(proxy)# Create opener object resp=opener . open(URL)print(resp . read()。Decode())。在上面的方法中,我们还使用了一个新的东西,那就是request.build_opener()方法。事实上,urlopen()通过构造的Opener对象发送请求。这里我们使用request.build_opener()方法来重构一个opener()对象,通过它我们可以实现urlopen()实现的任何东西。
(5)复杂的请求—cookies
有时候我们在访问一些网站的时候,需要做翻页或者跳转等其他操作。为了防止我们想要的数据被访问,我们需要让网站认识到我们是同一个用户。这时候就需要带上cookie进行访问了。
在设置cookie时,urllib没有一个好的cookie处理对象,所以这里我们需要使用另一个库,即http库,并使用里面的cookiejar来管理cookie:
从http导入cookiejar从urllib导入请求URL= 3359 www.baidu.com #创建一个cookie jar对象cookie=cookiejar。CookieJar()#使用HTTPCookieProcessor创建cookie处理器cookie=request.http cookie处理器(cookie) #并将其作为参数创建Opener对象Opener=request . build _ Opener(cookie)#使用此Opener发起请求resp=opener.open(url) #。如果看前面的cookie对象,可以看到访问百度获得的cookie: print(i)中的cookiefor i。当然,如果使用install_opener方法将上面生成的opener对象设置为global,那么每次访问opener对象时都会获取这个cookie。全局设置后,可以使用urlopen()方法或opener.open()方法。如果不安装,只能用opener.open()方法。
#将此开启器设置为全局开启器。之后所有的请求,无论是opener.open()还是urlopen()发送的,都会使用自定义的request . install _ opener(opener)resp=request . urla pen(URL)(6)复杂的请求—证书验证。
CA(Certificate Authority)是数字证书认证中心(Digital Certificate Certificate Center)的简称,是指颁发、管理和废止数字证书的可信第三方机构。
CA的作用是检查证书持有人身份的合法性,颁发证书防止被伪造或篡改,管理证书和密钥。在现实生活中,身份证可以用来证明身份,所以在网络世界中,数字证书就是身份证。与现实生活不同的是,并不是每个网络用户都有数字证书,往往只有当一个人需要证明自己的身份时,才需要数字证书。普通用户一般不需要,因为网站不在乎谁访问了网站。现在网站只关心流量。但反过来,网站需要证明自己的身份。比如现在有很多钓鱼网站。例如,你想参观www.baidu.com,但实际上你正在参观www.daibu.com。“因此,在提交您的私人信息之前,您需要验证网站的身份,并要求网站出示数字证书。正常的网站会主动出示自己的数字证书,以保证客户端与网站服务器之间的通信数据是加密安全的。
最简单的方法是通过添加忽略ssl证书验证来关闭证书验证。因为urllib没有很好的处理ssl,这里我们需要使用另一个库,即ssl库,如下:
导入sslfrom urllib导入请求context=ssl。_ create _ un verified _ Context()RES=URL lib . request . urlopen(request,Context=context) 2。urllib.error模块主要在urllib中设置了两个异常,一个是URLError,一个是HTTPError,是URLError的子类。
HTTPError还包含三个属性:
Code:请求原因的状态代码:错误标题的原因:来自urlib的响应的标题。错误导入HttpError:request . urlopern( 3359 www . jinshu . com )除了HttpError为e: print (e.code) 3。urllib.parse模块的数据参数需要urllib.parse模块以数据格式进行处理。
url lib . parse . quote(URL):(URL):(URL编码处理)主要对URL中的非ASCII代码进行编码。
url lib . parse . un quote(URL):(URL):(URL解码处理)URL上的特殊字符恢复
Urllib.parse.urlencode:对请求数据进行格式转换。
二。urllib3来自官方网站的解释:
Urllib3是一个强大的HTTP客户端,对SAP来说是健壮的。许多Python生态系统已经使用了urllib3,你也应该这样做。
要通过urllib3访问网页,必须先构造一个PoolManager对象,然后通过PoolMagent中的request方法或urlopen()方法访问网页。这两种方法几乎没有区别。
类URL库3。泳池管理员。池管理器(池数=10,头数=无,**连接池功率)生成一个自动释放池所需要的参数:
数量_池代表了缓存的池的个数,如果访问的个数大于池数量,将按顺序丢弃最初始的缓存,将缓存的个数维持在池的大小10 .标题代表了请求头的信息,如果在初始化自动释放池的时候制定了标题,那么之后每次使用自动释放池来进行访问的时候,都将使用该头球来进行访问**连接_池_千瓦是基于连接池来生成的其它设置当访问网页完成之后,将会返回一个HTTPResponse对象,可以通过如下的方法来读取获取得到请求的响应内容:
导入urllib3http=urllib3 .PoolManager(num_pools=5,headers={ 用户代理: ABCDE })resp 1=http。请求( GET , http://www.baidu.com ,body=data)# resp 2=http。urlopen( GET , http://www.baidu.com ,body=data)print(resp 2。数据。decode())除了普通的得到请求之外,你还可以使用请求()或者urlopen()进行邮政请求:
导入URL lib 3导入JSON数据=JSON。转储({ ABC : 123 })http=URL lib 3 .PoolManager(num_pools=5,headers={ 用户代理: ABCDE })resp 1=http。请求( POST , http://www.httpbin.org/post ,正文=数据,超时=5,重试=5)# resp 2=http。URL打开(发布, http://www.httpbin.org/post ,正文=数据,超时=5,重试=5)打印(响应1。数据。decode())注意事项
urllib3并没有办法单独设置cookie,所以如果你想使用甜饼干的话,可以将cookie放入到headers中
request()和urlopen()方法:请求(self,method,url,fields=None,headers=None,**urlopen_kw)urlopen(self,method,url,redirect=True,**kw):差距还是很明显的,urlopen()比请求()有三个参数是不一样的,你会发现请求()具有字段,标题两个参数。而且相比之下重新测试()方法还是比较符合人们的使用方式的,所以更多的也就使用请求()方法了。
推荐使用请求()来进行访问的,因为使用请求()来进行访问有两点好处,
可以直接进行邮政请求,不需要将数据直接进行得到请求,参数转换成JSON格式导入URL lib 3导入JSON数据={ ABC : 123 } http=URL lib 3 .PoolManager(num_pools=5,headers={ 用户代理: ABCDE })resp 1=http。请求( POST , http://www.httpbin.org/post ,字段=数据)# resp 1=http。请求(获取, http://www.httpbin.org/post ,字段=数据)打印(责任1。数据。decode())
虽然urlopen()没有字段,但这并不代表它不能进行邮政访问,相反,两个方法都有一个身体属性,这个属性就是我们平时邮政请求时所熟知的数据参数,只不过你需要将数据字典先转换成数据格式再进行传输。
不需要自己拼接url参数
2.2 urllib3代理管理器如果你需要使用代理来访问某个网站的话,那么你可以使用代理经理对象来进行设置
def __init__(self,proxy_url,num_pools=10,headers=None,proxy_headers=None,* * connection _ pool _ kw):代理管理器和自动释放池的方法基本完全相同,这里举个简单的小例子,就不再赘述了:
导入URL lib 3导入JSON数据={ ABC : 123 } proxy=URL lib 3 .代理经理( http://50。233 .137 .33:80 ,headers={ connection : keep-alive })resp 1=proxy。请求(过帐, http://www.httpbin.org/post ,字段=数据)打印(责任1。数据。decode())
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。