爬虫百度贴吧,爬虫的感悟

　　场景一：找到目标网站，愉快地打开F12，观察它，查看网络面板，捕捉请求。干脆json返回，好容易。代码噼啪作响，完成！

　　场景二：找到目标网站，开心地打开F12。观察网站不直接返回数据，而是html什么的。很简单。分析html。Xpath，css选择器，re，给我一张他的碟。代码噼啪作响，完成！

　　场景三：找到目标网站，开心地打开F12。观察请求只返回js，然后js被动态加载到网页中。快点，伙计们，硒，木偶师，phanotomjs，给我一盘他。代码噼啪作响，完成！

　　我们已经可以处理这里90%的情况了。

　　运行中，因为数据格式或者其他原因导致程序终止…网站的html不按套路出牌，有规律的写了很久…速度太快，ip被封，突然爬不上去了…数据需要登录才能拿到，模拟登录又是一番功夫。即使使用模拟浏览器，仍然无法获取数据。

　　其实写爬虫就像回合制游戏。你总是面对这个boss，用各种方法升级你的爬虫，最后搞定他。

　　甲：网站，乙：你

　　b:请求网站失败。b:数据分析有问题。b:分析哪里有问题，是在爬坡的过程中，还是在洗的过程中(反复调试直到ok)。b:速度太慢，多线程，协调。a:太快了，被打死了。b:去代理，代理是免费的，水平参差不齐。是不是要考虑整个代理池，交钱的都没钱？最后是程序的健壮性，以及根据某些功能的定制。有什么好的插件可以帮助我吗？毕竟我只是想简单的爬一些数据！

　　2.简单想想干货环节：用浏览器爬数据，那么用浏览器插件当然靠谱。

　　接下来推荐几个我用的比较舒服的插件。

　　网页浏览器

　　这真是个好东西，免费又好用。

　　免费的，但是只有一个线程，但是足够了。如果需要更多的服务，比如代理、并发，可以注册账号，买套餐。

　　打开F12，可以看到多了一个刮网器。这里以acg动漫网为例。

　　创建站点地图，创建站点地图配置规则。

　　预览数据

　　添加图片注释，不超过140字(可选)

　　下载导出数据

　　如果有人想看，我可以在下期给出详细教程。

　　这真的是爬图神器，不是我吹的。

　　直接右击网站提取图片！就是多方便啊。

　　提取出来的图片可以自行过滤下载。

　　然后点击下载全部下载！

　　3.最后，最后还有这两个工具。我相信一般的网站打不过你，就算你不会写代码也没关系！

　　文章知识点与官方知识档案相匹配，让你进一步学习相关知识。

　　来自的博主，你就像一个真正宝藏的原创作品。

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读