python requests urllib,urllib3 requests

　　3 python 3 urllib . request库的基本用法

　　所谓网页抓取，就是从网络流中读取URL地址中指定的网络资源，并保存在本地。Python中有很多库可以用来抓取网页。我们先来学习urllib.request库。

　　Urllib.request库是Python3自带的一个模块(不需要下载，导入后就可以使用)

　　windows下urllib.request库的路径(c: \ python34 \ lib \ urlib)

　　备注：python自己的模块库文件都在目录C:\python34\Lib (C:\python34是我的Python安装目录)，Python的第三方模块库都在目录C:\Python34\Lib\site-packages。

　　可以通过EditPlus工具或者其他代码查看工具查看urllib.request库的源代码。

　　入门的例子一：用urllib.request 里的urlopen()方法发送一个请求

　　#导入urllib.request库

　　导入urllib.request

　　#向指定的url发送请求，并返回服务器响应的类文件对象

　　response=urllib . request . urlopen( http://admin . bx cker . com )

　　#服务器返回的class file对象支持Python file对象的操作方法，比如read()方法读取文件的所有内容并返回一个字符串。

　　html=response.read()

　　#打印回复的内容

　　打印(html)

　　运行结果：

　　在PyChram下运行的结果：

　　在DOS下运行的结果：

　　检查网页上的源代码以验证：

　　在浏览器中打开http://admin.bxcker.com，点击右键，选择“查看源代码”，你会发现和我们刚刚打印出来的一模一样。也就是说上面的例子把登陆首页的所有代码都爬了下来。

　　对应于基本url请求的python代码非常简单。通过一个例子，说明可以通过发送请求得到响应的内容，然后输出显示响应的内容。

　　备注：urllib.request中的urlopen()不支持HTTP请求的构造，不能在书面请求中添加head，不能模拟真实浏览器发送请求。

　　通过查看urllib.request库的源代码文件，“用户代理”的默认值是client_version。

　　并且client _ version= python-urlib/% s % _ _ version _ _

　　通过检查urllib.request库的源文件，__version__=sys.version[:3]

　　在Dos下执行sys.version[:3]，显示的是3.4。

　　通过验证得出结论：urllib.request库中urlopen()方法的默认“User-agent”是原生Python的版本(user-agent: python-urllib/3.4)，服务器一下子就能识别为爬虫。

　　在我们的第一个介绍性示例中，urlopen()的参数是一个url地址；但是如果需要执行更复杂的操作，比如添加HTTP头，就必须创建一个请求实例作为urlopen()的参数；并且要访问的url地址被用作请求实例的参数。

　　例子二：用urllib.request 里的request ()方法发送一个请求

　　导入urllib.request

　　# url作为Request()方法的参数，构造并返回一个请求对象。

　　request=URL lib . request . request( http://admin . bx cker . com )

　　# Request对象，作为urlopen()方法的参数，发送给服务器，接收响应。

　　response=urllib . request . urlopen(request)

　　html=response.read()

　　打印(html)

　　操作结果：同例1。

　　请求实例，除了url参数之外，还可以设置另外两个参数：

　　Data:如果是GET请求，data(默认为空)；如果是POST请求，您需要添加数据参数来伴随url提交的数据。

　　Headers(缺省为空):它是一个字典，包含要发送的HTTP头的键值对。

　　您可以通过数据包捕获捕获http://admin.bxcker.com请求的报头信息。

　　Accept:文本/html

　　Accept-Encoding: gzip，放气

　　Accept-Language:zh-CN，zh；q=0.9

　　Cache-Control: 无缓存

　　Connection: 保活

　　Cookie:admin-JSESSIONID=2e 5020 af 574 ca 3 f 466 a 206d 8 f 006 c 914；log in _ USER={ " USER ":{ " accoununnonexpired ":true，" accountonlocked ":true，" branchId":2，" create time ":" 2017-12-15 15:42:25 "，" createUserId":2，" credentialsNonExpired":true，" deleteStatus":false，" enabled":true，" id":29580，" mobile":"11111111179 "，" new":false，" nickName":"xiaony "，" parentId":null，" platUserToken":null，" null "

　　Host:admin.bxcker.com

　　Pragma: 无缓存

　　Referer:http://admin.bxcker.com/

　　User-Agent:Mozilla/5.0(Windows NT 6.1；WOW64) AppleWebKit/537.36 (KHTML，像壁虎一样)Chrome/66。0 .3359 .139 Safari/537.36

　　【Host】:主域（发请求时，可以不写)

　　【Connection: 保活】:保持登录后的长连接

　　【User-Agent】:最重要的参数

　　【Accept】:接受数据的格式，例如：文本文本、json等

　　【Accept-Encoding】:数据的压缩方式（爬虫不是服务器，没有解压方法，不能写)

　　【Accept-Language】:支持的语言（可以不写)

　　【Cookie】:缓存，Cookie在爬虫里主要获取登录后的状态，跟登录相关的可以用饼干处理，如果只是获取一个静态页面的数据，就不需要用饼干。

　　网项目通过都是通过浏览器去访问，要想真实模拟一个用户用浏览器去访问网项目，在发送请求的时候，会有不同的用户代理头urllib2默认的用户代理头为：Python-urllib/x.y，所以就需要我们在发request请求的时候添加一个头信息

　　例子三：用urllib.request 里的request ()方法里加上head信息

　　导入urllib.request

　　header={ User-Agent : Mozilla/5.0(Windows NT 6.1；WOW64) AppleWebKit/537.36 (KHTML，像壁虎一样)Chrome/66。0 .3359 .139 Safari/537.36

　　}

　　#网址作为请求()方法的参数，构造并返回一个请求对象

　　请求=URL库。请求。请求( http://管理员。bx cker。com’)

　　#请求对象作为urlopen()方法的参数，发送给服务器并接收响应

　　响应=urllib。请求。urlopen(请求)

　　html=response.read()

　　打印(html)

　　运行结果：

　　为了验证我们爬虫发的请求，可以用抓包工具去抓我们爬虫发出去的请求，可以看到我们的头文件。

　　例子四：Request.get_header()与Request.add_header（）

　　导入urllib.request

　　url=http://admin.bxcker.com

　　header={ User-Agent : Mozilla/5.0(Windows NT 6.1；WOW64) AppleWebKit/537.36 (KHTML，像壁虎一样)Chrome/66。0 .3359 .139 Safari/537.36

　　}

　　#网址作为请求()方法的参数，构造并返回一个请求对象

　　请求=URL库。请求。请求(URL)

　　#也可以通过调用request.add_header()添加/修改一个特定的页眉

　　request.add_header(连接,保持活动)

　　# 也可以通过调用Request.get_header()来查看页眉信息

　　打印(请求。get _ header(header _ name= Connection ))

　　#请求对象作为urlopen()方法的参数，发送给服务器并接收响应

　　响应=urllib。请求。urlopen(请求)

　　html=response.read()

　　#打印(html)

　　运行结果：

　　例子五：随机添加/修改User-Agent

　　导入urllib.request

　　随机导入

　　url=http://admin.bxcker.com

　　#定义一个用户代理列表

　　用户代理列表=[

　　Mozilla/5.0(Windows NT 6.1；WOW64) AppleWebKit/537.36 (KHTML，像壁虎一样)Chrome/66。0 .3359 .139 Safari/537.36，，

　　Mozilla/5.0(X11；克罗斯i686 2268。111 .0)……",

　　Mozilla/5.0(麦金塔；u；“PPC麦克OS X…”，

　　Mozilla/5.0(麦金塔；英特尔mac 操作系统.

　　]

　　#随机抽取一个用户代理值

　　用户代理=随机选择（用户代理列表)

　　#网址作为请求()方法的参数，构造并返回一个请求对象

　　请求=URL库。请求。请求(URL)

　　#通过调用Request.add_header()添加一个特定的页眉

　　request.add_header(用户代理，用户代理)

　　# 第一个字母大写，后面的全部小写

　　print(request.get_header(用户代理))

　　#请求对象作为urlopen()方法的参数，发送给服务器并接收响应

　　响应=urllib。请求。urlopen(请求)

　　html=response.read()

　　打印(html)

　　运行结果：

　　转载于：https://www。cn博客。com/ting hai 8/p/9034742超文本标记语言

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读