python验证代理ip,python用随机代理ip访问网页
本文主要介绍如何使用Python爬虫收集网站的ip代理,并检查IP代理是否可用。本文中的样例代码讲解的很详细,有兴趣的可以试试。
00-1010开发环境模块使用代理ip结构代码实现步骤1。导入模块2。发送请求3。获取数据4。分析数据5。检查ip质量。
目录
Python 3.8
路径
开发环境
请求pip安装请求
pip安装
模块使用
proxies _ dict={
Http 3360 3358 IP :端口,
Https 3360 3358 IP :端口,
}
代理ip结构
代码实现步骤
#导入数据请求模块
导入请求#数据请求模块第三方模块pip安装请求
#导入正则表达式模块
导入#内置模块
#导入数据解析模块
导入parsel #数据解析模块第三方模块pip安装parsel这是scrapy框架的核心组件。
1. 导入模块
向目标URL发送请求https://www.kuaidaili.com/free/。
Url=f 3359 www.kuaidaili.com/free/inha/{page}/#确定请求的URL地址
#使用requests模块中的get方法向url地址发送请求,最后使用response变量接收返回的数据。
response=requests.get(url)
2. 发送请求
获取服务器返回的响应数据(网页源代码)
打印(响应.文本)
3. 获取数据
提取我们想要的数据内容。
分析数据的方法:
正则性:可以直接提取字符串数据内容xpath:根据标签节点提取数据内容css选择器3360根据标签属性提取数据内容。用哪个方面,喜欢哪个?
正则表达式提取数据内容
常规数据re.findall()调用模块中的方法。
通常,你永远不会决定。*?您可以匹配任何字符(换行符除外)。S
IP _ list=re . find all( TD data-title= IP (。*?)/td ,response.text,re。s)
PORT _ list=re . find all( TD data-title= PORT (。*?)/td ,response.text,re。s)
打印(ip_list)
打印(端口列表)
css选择器
css选择器在提取数据时需要转换获取的html字符串数据(response.text)。
# #列表表tbody tr td:nth第n个子表(1)
#//*[@ id= list ]/table/tbody/tr/TD[1]
selector=parser . selector(response . text)#将html字符串数据转换为选择器对象
IP _ list=selector . CSS( # list tbody tr TD : nth-child(1): text )。getall()
port _ list=selector . CSS( # list tbody tr TD : nth-child(2): text )。getall()
打印(ip_list)
打印(端口列表)
xpath 提取数据
selector=parser . selector(response . text)#将html字符串数据转换为选择器对象
IP _ list=selector . XPath(//*[@ id= list ]/table/tbody/tr/TD[1]/text())。getall()
port _ list=selector . XPath(//*[@ id= list ]/table/tbody/tr/TD[2]/text())。getall()
提取ip
对于ip,zip中的端口(ip列表,端口列表):
#打印(ip,端口)
代理=ip : 端口
proxies _ dict={
http: http://代理,
https: http://代理,
}
打印(代理_字典)
4. 解析数据
尝试:
response=requests.get(url=url,proxies=proxies _ dict,timeout=1)
if response . status _ code==200:
打印(“当前代理IP IP:”,proxies _ dict,“可用”)
lis _ 1 . append(proxy _ dict)
例外:
Print(当前代理IP: ,proxies _ dict,请求超时,检测失败)
Print(获取的代理IP数为: ,len(lis))
Print(获取可用IP代理的数量: ,len(lis_1))
Print(获取可用IP代理3360 ,清单1)
一共爬了150个,最后只测试了一个可用,还不如花钱买。
关于收藏网站的Python实现ip代理并检查是否可用的这篇文章到此为止。关于Python集合网站ip代理的更多信息,请搜索热门IT软件开发工作室之前的文章或者继续浏览下面的相关文章。希望大家以后多多支持热门IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。