python验证代理ip,python用随机代理ip访问网页

  python验证代理ip,python用随机代理ip访问网页

  本文主要介绍如何使用Python爬虫收集网站的ip代理,并检查IP代理是否可用。本文中的样例代码讲解的很详细,有兴趣的可以试试。

  00-1010开发环境模块使用代理ip结构代码实现步骤1。导入模块2。发送请求3。获取数据4。分析数据5。检查ip质量。

  

目录

  Python 3.8

  路径

  

开发环境

  请求pip安装请求

  pip安装

  

模块使用

  proxies _ dict={

  Http 3360 3358 IP :端口,

  Https 3360 3358 IP :端口,

  }

  

代理ip结构

  

代码实现步骤

  #导入数据请求模块

  导入请求#数据请求模块第三方模块pip安装请求

  #导入正则表达式模块

  导入#内置模块

  #导入数据解析模块

  导入parsel #数据解析模块第三方模块pip安装parsel这是scrapy框架的核心组件。

  

1. 导入模块

  向目标URL发送请求https://www.kuaidaili.com/free/。

  Url=f 3359 www.kuaidaili.com/free/inha/{page}/#确定请求的URL地址

  #使用requests模块中的get方法向url地址发送请求,最后使用response变量接收返回的数据。

  response=requests.get(url)

  

2. 发送请求

  获取服务器返回的响应数据(网页源代码)

  打印(响应.文本)

  

3. 获取数据

  提取我们想要的数据内容。

  分析数据的方法:

  正则性:可以直接提取字符串数据内容xpath:根据标签节点提取数据内容css选择器3360根据标签属性提取数据内容。用哪个方面,喜欢哪个?

  正则表达式提取数据内容

  常规数据re.findall()调用模块中的方法。

  通常,你永远不会决定。*?您可以匹配任何字符(换行符除外)。S

  IP _ list=re . find all( TD data-title= IP (。*?)/td ,response.text,re。s)

  PORT _ list=re . find all( TD data-title= PORT (。*?)/td ,response.text,re。s)

  打印(ip_list)

  打印(端口列表)

  css选择器

  css选择器在提取数据时需要转换获取的html字符串数据(response.text)。

  # #列表表tbody tr td:nth第n个子表(1)

  #//*[@ id= list ]/table/tbody/tr/TD[1]

  selector=parser . selector(response . text)#将html字符串数据转换为选择器对象

  IP _ list=selector . CSS( # list tbody tr TD : nth-child(1): text )。getall()

  port _ list=selector . CSS( # list tbody tr TD : nth-child(2): text )。getall()

  打印(ip_list)

  打印(端口列表)

  xpath 提取数据

  selector=parser . selector(response . text)#将html字符串数据转换为选择器对象

  IP _ list=selector . XPath(//*[@ id= list ]/table/tbody/tr/TD[1]/text())。getall()

  port _ list=selector . XPath(//*[@ id= list ]/table/tbody/tr/TD[2]/text())。getall()

  提取ip

  对于ip,zip中的端口(ip列表,端口列表):

  #打印(ip,端口)

  代理=ip : 端口

  proxies _ dict={

  http: http://代理,

  https: http://代理,

  }

  打印(代理_字典)

  

4. 解析数据

  尝试:

  response=requests.get(url=url,proxies=proxies _ dict,timeout=1)

  if response . status _ code==200:

  打印(“当前代理IP IP:”,proxies _ dict,“可用”)

  lis _ 1 . append(proxy _ dict)

  例外:

  Print(当前代理IP: ,proxies _ dict,请求超时,检测失败)

  Print(获取的代理IP数为: ,len(lis))

  Print(获取可用IP代理的数量: ,len(lis_1))

  Print(获取可用IP代理3360 ,清单1)

  一共爬了150个,最后只测试了一个可用,还不如花钱买。

  关于收藏网站的Python实现ip代理并检查是否可用的这篇文章到此为止。关于Python集合网站ip代理的更多信息,请搜索热门IT软件开发工作室之前的文章或者继续浏览下面的相关文章。希望大家以后多多支持热门IT软件开发工作室!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: