python的requests库下载,python3安装requests库

  python的requests库下载,python3安装requests库

  什么是爬行动物?爬行动物本质上模拟了人类浏览信息的过程,但其目的是通过计算机快速捕捉信息。所以我想写爬行动物。基本上就是按原样抓取需要抓取信息的页面。此时使用请求库。

  所谓工作,python首先需要下载有用的工具。在编写python之前,必须先构建一个安装环境。直接打开python官网:https://www.python.org/,点击下载安装。最新版本是3.9.3。

  对于windows计算机,单击64位下载。

  在安装过程中,必须选中将python添加到环境中,然后单击下载。

  不到一分钟,下载完成。将显示以下页面,指示下载成功。

  另一种方法是验证安装是否成功,打开CMD命令输入python,出现版本号表示对应下载成功。

  接下来,您必须安装crawler库,这是本章中介绍的请求库。

  安装请求库请求库本质上模拟了在浏览器中打开网页和启动请求的行为。您可以在本地快速保存请求的html源文件。

  他的安装方法很简单。我们使用pip工具在命令行上安装CMD。

  Pip安装请求

  然后,检查请求库是否安装成功。

  Pip list将检查安装结果,并在此时指示安装成功。

  请求库的基本用途现在开始写代码。首先打开编辑器,就是上面下载的python。

  找到闲置的,单独打开。

  然后点击左上角的文件,再点击新建文件。在此编辑代码。您可以先点按“文件”,然后给文件命名。这里姑且称之为测试吧。然后再打开。

  首先,在python编辑器中导入一个名为requests的包。

  Import requests现在假设您必须在本地捕获百度索引页面的html源代码,并将其存储在R变量中。

  r=requests . get(http://www.Baidu.com).打印最后下载的内容。

  单击包含运行模块的print(r.text) Run。点击后,如下图所示,百度首页的源代码文件被我们抓取到本地。

  上面的捕获使用了请求库的get方法。该方法是请求库中最常用的方法之一。

  他接收参数(url)并返回http响应对象。像get方法一样,requests库还有许多其他的通用方法。

  让我们仔细看看requests.get的方法

  该方法可以接收三个参数,第二个参数默认为None,第三个参数是可选的。

  请求。GET(url,params=None,**kwargs)用于模拟GET请求的开始和检索页面的url链接。

  现在,让我们关注一个名为**kwargs的参数。

  control kwargs:access的所有参数都是可选的。

  作为参数添加到url:字典或字节序列,参数

  数据:字典、字节序列或文件对象使用json: JSON格式数据作为请求的内容。

  标题:字典,HTTP自定义标题

  cookie:字典或CookieJar,请求的cookie

  Auth: tuple,支持HTTP认证。

  文件:字典类型,文件传输

  超时:以秒为单位设置超时。

  您可以通过设置代理:字典类型和访问代理服务器来增加登录验证。

  Allow_redirects: True/False,默认值为True,重定向开关

  Stream: True/False,默认值为True,一获取内容就切换下载。

  验证:True/false,默认值为True,SSL证书交换机已通过身份验证。

  证书:本地SSL证书路径

  Url:预设更新页面的url链接。

  数据:字典、字节序列或文件、请求内容

  Json: JSON格式数据,请求的内容

  下面是两个常见的控制访问参数。

  1. 假设我们需要在GET请求里自定义一个header头文件:

  importrequestshd={ user-agent : 123 } r=requests . get( http://www.Baidu.com ,headers=hd ) print)

  为什么需要添加代理?

  “池代理”这个参数是因为在抓取网页的过程中,有些网站有严格的IP控制,所以我们需要添加很多带IP的代理机制,这样就可以忽悠到被抓取的网站。后面章节会有实际案例,详细讲解这个代理池的用法,先留个坑。

  PXS={ http : http://user:pass @ 10 . 10 . 1:1234 , https : 335910 . 10 . 10 . 1:4321 } R=requests . get( 3358 www . Bai

  importsr=requests . get( 3358 www . Baidu . com )# HTTP请求的返回状态,例如200表示成功,04表示失败HTTP请求中的print(r . status _ code)# headers print(r . headers)#)内容编码方法从头打印猜测的响应(r.encoding)#从内容分析的编码方法(slow)print(r . apparent _ encoding)#二进制形式的响应,print (r.content)。以下是请求抓取网页的一般框架。它是最简单的爬虫模板,也是我们后来在实战案例中经常用到的基础代码。可以说,万物皆变。

  下面这段代码是什么意思?我简单解释一下。url代表我们要抓取的网站地址。首先,我们使用请求来抓取这个地址,并给它30秒的延迟。如果在30秒内可以访问,并且获得的状态码是200,那么我们将返回访问过的网页内容;否则,我们将返回一条失败消息。

  import requests def getHtmlText(URL):try:r=requests . get(URL,Timeout=30) #如果状态代码不是200,应该发出HTTOError异常r.raise_for_status() #设置正确的编码方法r . encoding=r . apparent _ encoding return r . text except:return something error!好了,关于requests库就到此为止吧,这是一个非常强大的库。

  更多功能请看官方文档:快速启动-请求2.10.0文档。

  在下一章,我将解释另一个常见的爬虫BeautifulSoup库。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: