selenium框架介绍,selenium+python自动化框架

　　本文文字及图片均来自网络，仅供学习交流，无商业用途。版权归原作者所有。如有问题，请及时联系我们进行处理。

　　以下文章来自腾讯云作者：孔雀

　　不同的网站选择不同的技术策略和不同的框架组合。

　　Selenium框架：我把这个框架命名为“阻止不了爬虫的蜘蛛侠”。个人觉得这个框架的好处是可以模拟浏览器，相当于用程序调动浏览器打开你需要抓取的网站。这个好处其实就是可以避免被屏蔽很多。因为当我们使用Python的requets库发出网络情况时，你必须先构造http请求头。但是有些网站有严格的反抓取，可以直接识别你当前的访问是否是正常的用户行为。所以，如果用request请求时被目标网站识别，导致无法抓取，那么此时只有使用这个selenium框架才是最好的技术选择。他能做的是，只要你的网站能用浏览器正常访问，selenium就能收集网站数据，除非正常浏览器无法访问。

　　selenium框架优势：抗爬能力强，适合爬取抗爬能力强的网站或需要点击提交的网站。我在抓取商标网络数据的时候，老板要求抓取当时所有网站上千万的商标数据，但是这个网站的反抓取能力很强，需要你点击确定按钮才能进入商标综合搜索页面，然后根据注册号搜索进入列表页面，然后从列表页面点击进入商标详情页，再从详情页点击。这一系列需要的模拟动作，当时为了解决一天爬百万数据的问题，一开始我采用了Python的请求库代理IP池技术架构，然后启动多进程，可惜很快就被目标网站识别出你的请求不是普通用户。因为你太快了，最后不得不改用selenium多工艺技术价格组合。

　　selenium框架缺点：速度慢，适合每天对数据要求不多的爬虫，因为selenium框架要打开浏览器，然后模拟点击网页。这个过程和打开浏览器，手动打开网址访问网站一样快。这个速度比较慢。如果您希望每天只收集10，000-20，000条数据，可以使用这个selenium框架。因为相对稳定可靠。