python爬取网页链接,如何利用python爬取网页内容

　　最近写了一个网络爬虫的代码，提供命令行下载文件或者打印根域名下指定深度的节点和子节点。用的是Urllib2库，比较简单，但不是很强大。

　　让我们言归正传。在实际抓取网页的过程中，一般的流程是一次调用以下三个函数：

　　req=URL lib 2 . request(URL)response=URL lib 2 . urllopen(req)html=response . read()链接的内容保存在HTML中，然后就可以解析了。

　　但是在实际的爬虫中，我们遇到的URL不仅仅是那些带有html文件的，还有那些下载文件的链接。这些链接对爬取整个网络框架没有帮助，所以不要调用read函数来获取内容。所以需要判断url链接的文件的类型来过滤掉非html链接。

　　文件类型由http头的头中内容类型项的内容来判断。对于html类型，内容类型的内容为“text/html”，其他可见网站为：http://tool.oschina.net/commons.判断代码如下：

　　http message=response . info()content type=http message . gettype()if text/html ！=ContentType:如果是“text/html”类型，使用read函数，然后解析；否则，解析下一个url。

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。