Python网络请求,python网络爬虫爬取数据

  Python网络请求,python网络爬虫爬取数据

  本文主要介绍Python爬虫的网络要求。本文基于Python介绍了网络请求,有需要的可以参考一下。

  00-1010 1.IP代理2.Cookie3 .异常处理

  

目录

  有些网站会检测某个IP在某段时间内的访问次数,如果访问次数过多,就会禁止访问。这时候就需要设置一些代理服务器,每隔一段时间就换一个代理。知识产权代理的分类:

  透明代理:的目标网站可以知道使用了代理和源IP地址,明显不符合要求;匿名代理:的目标网站知道使用了代理,但不知道源IP地址;对高匿代理:来说,最安全的方法是目标网站既不知道代理也不知道源IP地址。

  

1.IP代理

  解决http的无状态性,第一次向服务器发送请求时,服务器生成一个Cookie作为请求头,存储在浏览器中;再次发送请求时,浏览器将携带Cookie信息。

  导入urllib.request

  从http导入cookiejar

  filename=cookie.txt

  #获取饼干

  def get_cookie():

  #实例化一个MozillaCookieJar来存储cookie

  cookie=cookiejar。MozillaCookieJar(文件名)

  #创建处理程序对象

  handler=URL lib . request . httpcookieprocessor(cookie)

  #创建一个打开器对象

  opener=URL lib . request . build _ opener(处理程序)

  #请求URL

  URL= https://tie ba . Baidu.com/index . html?traceid=#

  Resp=opener.open(url) #发送请求

  #存储cookie文件

  cookie.save()

  #读取cookie

  def use_cookie():

  #实例化MozillaCookieJar

  cookie=cookiejar。MozillaCookieJar()

  #加载cookie文件

  cookie.load(文件名)

  打印(cookie)

  get_cookie()

  使用cookie()

  

2.Cookie

  urllib.error.URLError:用于捕获urllib.request生成的异常,reason属性用于返回错误原因。

  导入urllib.request

  导入urllib.error

  url=http://www.google.com

  尝试:

  resp=URL lib . request . urlopen(URL)

  除了urllib.error.URLError作为e:

  打印(原因)

  输出结果:

  [WinError 10060]连接尝试失败,因为连接方在一段时间后没有正确回复,或者连接的主机没有响应。

  urllib.error.HTTPError:用来处理HTTP和HTTPS请求的错误,

  有三个属性:

  代码:请求返回的状态代码原因:返回的错误原因标头:请求importurllib.request返回的响应标头信息。

  导入urllib.error

  url=https://movie.douban.com/

  尝试:

  resp=URL lib . request . urlopen(URL)

  除了urllib.error.HTTPError作为e:

  打印(原因:,e .原因)

  打印(响应状态代码:,str(e.code))

  打印(响应标题数据:,e.headers)

  关于Python爬虫的web请求这篇文章到此为止。有关Python web request的更多信息,请搜索热门IT软件开发工作室之前的文章或继续浏览下面的相关文章。希望你以后能支持风行IT软件开发工作室!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: