python爬取网页链接,如何利用python爬取网页内容

  python爬取网页链接,如何利用python爬取网页内容

  最近写了一个网络爬虫的代码,提供命令行下载文件或者打印根域名下指定深度的节点和子节点。用的是Urllib2库,比较简单,但不是很强大。

  让我们言归正传。在实际抓取网页的过程中,一般的流程是一次调用以下三个函数:

  req=URL lib 2 . request(URL)response=URL lib 2 . urllopen(req)html=response . read()链接的内容保存在HTML中,然后就可以解析了。

  但是在实际的爬虫中,我们遇到的URL不仅仅是那些带有html文件的,还有那些下载文件的链接。这些链接对爬取整个网络框架没有帮助,所以不要调用read函数来获取内容。所以需要判断url链接的文件的类型来过滤掉非html链接。

  文件类型由http头的头中内容类型项的内容来判断。对于html类型,内容类型的内容为“text/html”,其他可见网站为:http://tool.oschina.net/commons.判断代码如下:

  http message=response . info()content type=http message . gettype()if text/html !=ContentType:如果是“text/html”类型,使用read函数,然后解析;否则,解析下一个url。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: