selenium框架介绍,selenium+python自动化框架
本文文字及图片均来自网络,仅供学习交流,无商业用途。版权归原作者所有。如有问题,请及时联系我们进行处理。
以下文章来自腾讯云作者:孔雀
不同的网站选择不同的技术策略和不同的框架组合。
Selenium框架:我把这个框架命名为“阻止不了爬虫的蜘蛛侠”。个人觉得这个框架的好处是可以模拟浏览器,相当于用程序调动浏览器打开你需要抓取的网站。这个好处其实就是可以避免被屏蔽很多。因为当我们使用Python的requets库发出网络情况时,你必须先构造http请求头。但是有些网站有严格的反抓取,可以直接识别你当前的访问是否是正常的用户行为。所以,如果用request请求时被目标网站识别,导致无法抓取,那么此时只有使用这个selenium框架才是最好的技术选择。他能做的是,只要你的网站能用浏览器正常访问,selenium就能收集网站数据,除非正常浏览器无法访问。
selenium框架优势:抗爬能力强,适合爬取抗爬能力强的网站或需要点击提交的网站。我在抓取商标网络数据的时候,老板要求抓取当时所有网站上千万的商标数据,但是这个网站的反抓取能力很强,需要你点击确定按钮才能进入商标综合搜索页面,然后根据注册号搜索进入列表页面,然后从列表页面点击进入商标详情页,再从详情页点击。这一系列需要的模拟动作,当时为了解决一天爬百万数据的问题,一开始我采用了Python的请求库代理IP池技术架构,然后启动多进程,可惜很快就被目标网站识别出你的请求不是普通用户。因为你太快了,最后不得不改用selenium多工艺技术价格组合。
selenium框架缺点:速度慢,适合每天对数据要求不多的爬虫,因为selenium框架要打开浏览器,然后模拟点击网页。这个过程和打开浏览器,手动打开网址访问网站一样快。这个速度比较慢。如果您希望每天只收集10,000-20,000条数据,可以使用这个selenium框架。因为相对稳定可靠。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。