python requests urllib,urllib3 requests

  python requests urllib,urllib3 requests

  3 python 3 urllib . request库的基本用法

  所谓网页抓取,就是从网络流中读取URL地址中指定的网络资源,并保存在本地。Python中有很多库可以用来抓取网页。我们先来学习urllib.request库。

  Urllib.request库是Python3自带的一个模块(不需要下载,导入后就可以使用)

  windows下urllib.request库的路径(c: \ python34 \ lib \ urlib)

  备注:python自己的模块库文件都在目录C:\python34\Lib (C:\python34是我的Python安装目录),Python的第三方模块库都在目录C:\Python34\Lib\site-packages。

  可以通过EditPlus工具或者其他代码查看工具查看urllib.request库的源代码。

  入门的例子一:用urllib.request 里的urlopen()方法发送一个请求

  #导入urllib.request库

  导入urllib.request

  #向指定的url发送请求,并返回服务器响应的类文件对象

  response=urllib . request . urlopen( http://admin . bx cker . com )

  #服务器返回的class file对象支持Python file对象的操作方法,比如read()方法读取文件的所有内容并返回一个字符串。

  html=response.read()

  #打印回复的内容

  打印(html)

  运行结果:

  在PyChram下运行的结果:

  在DOS下运行的结果:

  检查网页上的源代码以验证:

  在浏览器中打开http://admin.bxcker.com,点击右键,选择“查看源代码”,你会发现和我们刚刚打印出来的一模一样。也就是说上面的例子把登陆首页的所有代码都爬了下来。

  对应于基本url请求的python代码非常简单。通过一个例子,说明可以通过发送请求得到响应的内容,然后输出显示响应的内容。

  备注:urllib.request中的urlopen()不支持HTTP请求的构造,不能在书面请求中添加head,不能模拟真实浏览器发送请求。

  通过查看urllib.request库的源代码文件,“用户代理”的默认值是client_version。

  并且client _ version= python-urlib/% s % _ _ version _ _

  通过检查urllib.request库的源文件,__version__=sys.version[:3]

  在Dos下执行sys.version[:3],显示的是3.4。

  通过验证得出结论:urllib.request库中urlopen()方法的默认“User-agent”是原生Python的版本(user-agent: python-urllib/3.4),服务器一下子就能识别为爬虫。

  在我们的第一个介绍性示例中,urlopen()的参数是一个url地址;但是如果需要执行更复杂的操作,比如添加HTTP头,就必须创建一个请求实例作为urlopen()的参数;并且要访问的url地址被用作请求实例的参数。

  例子二:用urllib.request 里的request ()方法发送一个请求

  导入urllib.request

  # url作为Request()方法的参数,构造并返回一个请求对象。

  request=URL lib . request . request( http://admin . bx cker . com )

  # Request对象,作为urlopen()方法的参数,发送给服务器,接收响应。

  response=urllib . request . urlopen(request)

  html=response.read()

  打印(html)

  操作结果:同例1。

  请求实例,除了url参数之外,还可以设置另外两个参数:

  Data:如果是GET请求,data(默认为空);如果是POST请求,您需要添加数据参数来伴随url提交的数据。

  Headers(缺省为空):它是一个字典,包含要发送的HTTP头的键值对。

  您可以通过数据包捕获捕获http://admin.bxcker.com请求的报头信息。

  Accept:文本/html

  Accept-Encoding: gzip,放气

  Accept-Language:zh-CN,zh;q=0.9

  Cache-Control: 无缓存

  Connection: 保活

  Cookie:admin-JSESSIONID=2e 5020 af 574 ca 3 f 466 a 206d 8 f 006 c 914;log in _ USER={ " USER ":{ " accoununnonexpired ":true," accountonlocked ":true," branchId":2," create time ":" 2017-12-15 15:42:25 "," createUserId":2," credentialsNonExpired":true," deleteStatus":false," enabled":true," id":29580," mobile":"11111111179 "," new":false," nickName":"xiaony "," parentId":null," platUserToken":null," null "

  Host:admin.bxcker.com

  Pragma: 无缓存

  Referer:http://admin.bxcker.com/

  User-Agent:Mozilla/5.0(Windows NT 6.1;WOW64) AppleWebKit/537.36 (KHTML,像壁虎一样)Chrome/66。0 .3359 .139 Safari/537.36

  【Host】:主域(发请求时,可以不写)

  【Connection: 保活】:保持登录后的长连接

  【User-Agent】:最重要的参数

  【Accept】:接受数据的格式,例如:文本文本、json等

  【Accept-Encoding】:数据的压缩方式(爬虫不是服务器,没有解压方法,不能写)

  【Accept-Language】:支持的语言(可以不写)

  【Cookie】:缓存,Cookie在爬虫里主要获取登录后的状态,跟登录相关的可以用饼干处理,如果只是获取一个静态页面的数据,就不需要用饼干。

  网项目通过都是通过浏览器去访问,要想真实模拟一个用户用浏览器去访问网项目,在发送请求的时候,会有不同的用户代理头urllib2默认的用户代理头为:Python-urllib/x.y,所以就需要我们在发request请求的时候添加一个头信息

  例子三:用urllib.request 里的request ()方法里加上head信息

  导入urllib.request

  header={ User-Agent : Mozilla/5.0(Windows NT 6.1;WOW64) AppleWebKit/537.36 (KHTML,像壁虎一样)Chrome/66。0 .3359 .139 Safari/537.36

  }

  #网址作为请求()方法的参数,构造并返回一个请求对象

  请求=URL库。请求。请求( http://管理员。bx cker。com’)

  #请求对象作为urlopen()方法的参数,发送给服务器并接收响应

  响应=urllib。请求。urlopen(请求)

  html=response.read()

  打印(html)

  运行结果:

  为了验证我们爬虫发的请求,可以用抓包工具去抓我们爬虫发出去的请求,可以看到我们的头文件。

  例子四:Request.get_header()与Request.add_header()

  

  导入urllib.request

  url=http://admin.bxcker.com

  header={ User-Agent : Mozilla/5.0(Windows NT 6.1;WOW64) AppleWebKit/537.36 (KHTML,像壁虎一样)Chrome/66。0 .3359 .139 Safari/537.36

  }

  #网址作为请求()方法的参数,构造并返回一个请求对象

  请求=URL库。请求。请求(URL)

  #也可以通过调用request.add_header()添加/修改一个特定的页眉

  request.add_header(连接,保持活动)

  # 也可以通过调用Request.get_header()来查看页眉信息

  打印(请求。get _ header(header _ name= Connection ))

  #请求对象作为urlopen()方法的参数,发送给服务器并接收响应

  响应=urllib。请求。urlopen(请求)

  html=response.read()

  #打印(html)

  

  运行结果:

  例子五:随机添加/修改User-Agent

  导入urllib.request

  随机导入

  url=http://admin.bxcker.com

  #定义一个用户代理列表

  用户代理列表=[

  Mozilla/5.0(Windows NT 6.1;WOW64) AppleWebKit/537.36 (KHTML,像壁虎一样)Chrome/66。0 .3359 .139 Safari/537.36,,

  Mozilla/5.0(X11;克罗斯i686 2268。111 .0)……",

  Mozilla/5.0(麦金塔;u;“PPC麦克OS X…”,

  Mozilla/5.0(麦金塔;英特尔mac 操作系统.

  ]

  #随机抽取一个用户代理值

  用户代理=随机选择(用户代理列表)

  #网址作为请求()方法的参数,构造并返回一个请求对象

  请求=URL库。请求。请求(URL)

  #通过调用Request.add_header()添加一个特定的页眉

  request.add_header(用户代理,用户代理)

  # 第一个字母大写,后面的全部小写

  print(request.get_header(用户代理))

  #请求对象作为urlopen()方法的参数,发送给服务器并接收响应

  响应=urllib。请求。urlopen(请求)

  html=response.read()

  打印(html)

  运行结果:

  转载于:https://www。cn博客。com/ting hai 8/p/9034742超文本标记语言

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: