浏览器必要的系统组件,浏览器支持组件
有些情况下,我们爬不了几页,拿到源代码也是不正确的。这些页面有一些反爬虫设置,防止他人恶意收集信息。
那么,我们如何获取这些页面的信息呢?
您可以设置一些标题信息来模拟浏览器对这些网站的访问。至此,这个问题就可以解决了。
那么,我应该添加什么样的标题信息呢?
必须在浏览器中模拟爬虫,以便浏览器可以设置用户代理信息。
让我通过一个案例来说明:
https://search.jd.com/Search?ky word=python enc=utf-8 qrst=1rt=1 stop=1vt=2wq=python page=1
请看一看。源代码是什么?
要模拟浏览器访问,您必须设置标题头。
url=https://search.jd.com/Search?keyword=python enc=utf-8 qrst=1rt=1 stop=1vt=2wq=python page=1
#设置标题以模拟浏览器访问
headers={ user-agent : Mozilla/5.0(windows nt 10.0;WOW64 ) appleWebKit/537.36(khtml,像壁虎一样)chrome/63 . 0 . 3239 . 132 safari/537.36)}
#向目标站点发送请求以获取web源
RS=requests.get(URL,headers=headers).
rs.encoding=utf-8
#网络资源
body=rs.text
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。