python的requests库简介,python中的request库

　　大家好，本文主要讲一下Python爬虫的requests库的基本介绍。有兴趣的同学过来看看，如果对你有帮助记得收藏。

　　00-1010一、说明二。基本用法：摘要

一、说明

　　1、requests.get()

　　用于请求目标网站，类型为HTTPresponse类型。

　　导入请求

　　response=requests . get( http://www . Baidu.com )

　　Print(response.status_code) #打印状态代码

　　Print(response.url) #打印请求url

　　Print(response.headers) #打印头信息

　　Print(response.cookies) #打印cookie信息

　　Print(response.text) #以文本形式打印网页的源代码。

　　Print(response.content) #作为字节流打印

　　print(response . content . decode( UTF-8 ))#解决了通过response.text直接返回和显示乱码的问题

　　Response.encoding=utf-8 #避免乱码。

　　2、各种请求方式

　　导入请求

　　requests . get( http://http bin . org/get )

　　requests . post( http://http bin . org/post )

　　requests . put( http://http bin . org/put )

　　requests . delete( http://http bin . org/delete )

　　requests . head( http://http bin . org/get )

　　requests . options( http://http bin . org/get )

　　3、基本的get请求

　　导入请求

　　response=requests . get( http://http bin . org/get )

　　打印(响应.文本)

　　4、带参数的get请求

　　第一种方法将参数直接放在url中。

　　导入请求

　　response=requests . get(http://http bin . org/get？name=gemeyage=22)

　　打印(响应.文本)

　　另一种是先填写dict中的参数，发起请求时将params参数指定为dict。

　　导入请求

　　数据={

　　姓名 : 汤姆:

　　年龄： 20

　　}

　　响应=

　　requests.get(http://httpbin.org/get, params=data)

　　print(response.text)

　　5、解析json

import requests
　　response = requests.get(http://httpbin.org/get)
　　print(response.text)
　　print(response.json()) #response.json()方法同json.loads(response.text)
　　print(type(response.json()))

　　如果 JSON 解码失败，将会抛出 ValueError: No JSON object could be decoded 异常。而成功调用 response.json() 并不意味着响应的成功。有的服务器会在失败的响应中包含一个 JSON 对象（比如 HTTP 500 的错误细节）。这种 JSON 会被解码返回。要检查请求是否成功，请使用 r.raise_for_status() 或者检查 response.status_code 是否和你的期望相同

　　6、保存一个二进制文件

　　二进制内容为response.content

import requests
　　response = requests.get(http://img.ivsky.com/img/tupian/pre/201708/30/kekeersitao-002.jpg)
　　b = response.content
　　with open(F://fengjing.jpg,wb) as f:
　　 f.write(b)

　　7、添加heads信息

import requests
　　heads = {}
　　heads[User-Agent] = Mozilla/5.0 \
　　 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 \
　　 (KHTML, like Gecko) Version/5.1 Safari/534.50
　　 response = requests.get(http://www.baidu.com,headers=headers)

　　8、使用代理

　　同添加headers方法，代理参数也要是一个dict

　　这里使用requests库爬取了IP代理网站的IP与端口和类型

import requests
　　import re
　　def get_html(url):
　　 proxy = {
　　 http: 120.25.253.234:812,
　　 https: 163.125.222.244:8123
　　 }
　　 heads = {}
　　 heads[User-Agent] = Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0
　　 req = requests.get(url, headers=heads,proxies=proxy)
　　 html = req.text
　　 return html
　　def get_ipport(html):
　　 regex = r<td data-title="IP">(.+)</td>
　　 iplist = re.findall(regex, html)
　　 regex2 = <td data-title="PORT">(.+)</td>
　　 portlist = re.findall(regex2, html)
　　 regex3 = r<td data-title="类型">(.+)</td>
　　 typelist = re.findall(regex3, html)
　　 sumray = []
　　 for i in iplist:
　　 for p in portlist:
　　 for t in typelist:
　　 pass
　　 pass
　　 a = t+,+i + : + p
　　 sumray.append(a)
　　 print(高匿代理)
　　 print(sumray)
　　if __name__ == __main__:
　　 url = http://www.kuaidaili.com/free/
　　 get_ipport(get_html(url))

　　9、基本POST请求

import requests
　　data = {name:tom,age:22}
　　response = requests.post(http://httpbin.org/post, data=data)

　　10、获取cookie

import requests
　　response = requests.get(http://www.baidu.com)
　　print(response.cookies)
　　print(type(response.cookies))
　　for k,v in response.cookies.items():
　　 print(k+:+v)

　　11、会话维持

import requests
　　session = requests.Session()
　　session.get(http://httpbin.org/cookies/set/number/12345)
　　response = session.get(http://httpbin.org/cookies)
　　print(response.text)

　　11、证书验证设置

import requests
　　from requests.packages import urllib3
　　urllib3.disable_warnings() #从urllib3中消除警告
　　response = requests.get(https://www.12306.cn,verify=False) #证书验证设为FALSE
　　print(response.status_code)

　　12、超时异常捕获

import requests
　　from requests.exceptions import ReadTimeout
　　try:
　　 res = requests.get(http://httpbin.org, timeout=0.1)
　　 print(res.status_code)
　　except ReadTimeout:
　　 print(timeout)

　　13、异常处理

　　在你不确定会发生什么错误时，尽量使用try…except来捕获异常

import requests
　　from requests.exceptions import ReadTimeout,HTTPError,RequestException
　　try:
　　 response = requests.get(http://www.baidu.com,timeout=0.5)
　　 print(response.status_code)
　　except ReadTimeout:
　　 print(timeout)
　　except HTTPError:
　　 print(httperror)
　　except RequestException:
　　 print(reqerror)