爬虫百度贴吧,爬虫的感悟
场景一:找到目标网站,愉快地打开F12,观察它,查看网络面板,捕捉请求。干脆json返回,好容易。代码噼啪作响,完成!
场景二:找到目标网站,开心地打开F12。观察网站不直接返回数据,而是html什么的。很简单。分析html。Xpath,css选择器,re,给我一张他的碟。代码噼啪作响,完成!
场景三:找到目标网站,开心地打开F12。观察请求只返回js,然后js被动态加载到网页中。快点,伙计们,硒,木偶师,phanotomjs,给我一盘他。代码噼啪作响,完成!
我们已经可以处理这里90%的情况了。
运行中,因为数据格式或者其他原因导致程序终止…网站的html不按套路出牌,有规律的写了很久…速度太快,ip被封,突然爬不上去了…数据需要登录才能拿到,模拟登录又是一番功夫。即使使用模拟浏览器,仍然无法获取数据。
其实写爬虫就像回合制游戏。你总是面对这个boss,用各种方法升级你的爬虫,最后搞定他。
甲:网站,乙:你
b:请求网站失败。b:数据分析有问题。b:分析哪里有问题,是在爬坡的过程中,还是在洗的过程中(反复调试直到ok)。b:速度太慢,多线程,协调。a:太快了,被打死了。b:去代理,代理是免费的,水平参差不齐。是不是要考虑整个代理池,交钱的都没钱?最后是程序的健壮性,以及根据某些功能的定制。有什么好的插件可以帮助我吗?毕竟我只是想简单的爬一些数据!
2.简单想想干货环节:用浏览器爬数据,那么用浏览器插件当然靠谱。
接下来推荐几个我用的比较舒服的插件。
网页浏览器
这真是个好东西,免费又好用。
免费的,但是只有一个线程,但是足够了。如果需要更多的服务,比如代理、并发,可以注册账号,买套餐。
打开F12,可以看到多了一个刮网器。这里以acg动漫网为例。
创建站点地图,创建站点地图配置规则。
预览数据
添加图片注释,不超过140字(可选)
下载导出数据
如果有人想看,我可以在下期给出详细教程。
这真的是爬图神器,不是我吹的。
直接右击网站提取图片!就是多方便啊。
提取出来的图片可以自行过滤下载。
然后点击下载全部下载!
3.最后,最后还有这两个工具。我相信一般的网站打不过你,就算你不会写代码也没关系!
文章知识点与官方知识档案相匹配,让你进一步学习相关知识。
来自的博主,你就像一个真正宝藏的原创作品。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。