python爬取代理ip,python检测代理ip可用性

  python爬取代理ip,python检测代理ip可用性

  **

  爬取代理互联网协议(互联网协议的缩写)并验证(快代理西祠代理) **

  最近公司有些爬虫需求,有爬虫,就需要有代理互联网协议(互联网协议)池(为什么需要?自己想。),但是吧,只能用免费的,原因都懂,那来吧!

  快代理:https://www。快戴笠。com/free/inha/1/西祠代理:http://www.xicidaili.com/nn/1/(我今天发现登不上,代码也贴上吧,赠人玫瑰,手有余香!)快代理快代理# 快代理什么是导入请求etree#将能用的代理互联网协议(互联网协议)追加到文件def write _ proxy(proxy):print(proxy)for proxy in proxy:with open(./1688-data/ip_proxy.txt , a )作为女:打印(’正在写入:,proxy) f.write(proxy \n) print(录入完成!)# 解析网页,并得到网页中的代理IP def get _ proxy(html):selector=etree .HTML(HTML)proxy=[],用于每个输入选择器。XPath(//table[@ class= table table-bordered table-striped ]/tbody/tr )[1:]:# IP。append(each[0])IP=each。XPath(./TD[1]/text())[0]port=each。XPath(./TD[2]/text())[0]proxy=IP :端口代理。append(代理)print(len(代理))test _ proxy(代理)#验证已得到互联网协议(互联网协议)的可用性def test _ proxy(proxies):proxies=proxies URL= https://www。1688 . com/ header={ User-Agent : Mozilla/5.0(Windows NT 10.0;WOW64) AppleWebKit/537.36 (KHTML,像壁虎)铬/67。0 .3396 .99 Safari/537.36 ,} normal _ proxy=[]count=1对于代理中的代理:打印(第%s个。% count)count=1尝试:响应=请求。get(URL,headers=header,proxy={ http :proxy },time out=1)time=response。逝去。total _ seconds()打印(时间)if响应。status _ code==200:print(该代理互联网协议(互联网协议)可用:,proxy)normal _ proxy。附加(代理)else:print(该代理互联网协议(互联网协议)不可用:,代理)例外:打印(该代理互联网协议(互联网协议)无效:,代理)传递write _ proxy(普通代理)#营造请求头,获取网页相应def get _ html(URL):header={ User-Agent : Mozilla/5.0(Windows NT 10.0;WOW64) AppleWebKit/537.36 (KHTML,像壁虎)Chrome/67。0 .3396 .99 Safari/537.36 ,} response=requests.get(url,headers=header,)# print(response。text)get _ proxy(响应。text)if _ _ name _ _= _ _ main _ _ :base _ URL= https://www .快戴笠。对于范围(1,4)中的I:URL=in西祠代理把获取代理(html)方法自己换一下,要是懒自己换一下路径语言

  # 解析网页,并得到网页中的代理IP def get _ proxy(html):selector=etree .HTML(HTML)proxy=[],用于每个输入选择器。XPath(//table[@ id= IP _ list ]/tr )[1:]:# IP。append(each[0])IP=each。XPath(./TD[2]/text())[0]port=each。XPath(./TD[3]/text())[0]proxy=IP :端口代理。append(代理)print(len(代理))test _ proxy(代理)如果那天不管用了,换下获取代理(html)方法中的路径语言路径应该就可以。(网站优化的话,就听天由命吧,祝你好运!)对了,部分代码是参考一位老哥的,连接找不到了,老哥你要是看到了联系我,我加上参考连接!

  历史中提交的图片或压缩文件

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: