python beautifulsoup 使用,
美丽的声音除了可以查找和定位网页内容,还可以修改网页,下面这篇文章主要给大家介绍了关于计算机编程语言使用BeautifulSoup4修改网页内容的相关资料,需要的朋友可以参考下
最近有个小项目,需要爬取页面上相应的资源数据后,保存到本地,然后将原始的超文本标记语言源文件保存下来,对超文本标记语言页面的内容进行修改将某些标签整个给替换掉。
对于这类需要对超文本标记语言进行操作的需求,最方便的莫过于BeautifulSoup4的库了。
样例的HTML代码如下:
超文本标记语言
身体
视频幻灯片。测试。com/WP-content/uploads/1020/1381824922 .jpg rel=外部nofollow rel=外部“不跟随”
img src= http://www。测试。com/WP-content/uploads/1020/1381824922 _ zy _ compress .jpg data-zy-media-id= zy _ location _ 201310151613422786 /
/a
a href= http://www。测试。com/WP-content/uploads/1020/第一张_1381824798.jpg rel=外部nofollow rel=外部“不跟随”
img data-zy-media-id= zy _ image _ 201310151613169945 src= http://www。测试。com/WP-content/uploads/1020/第一张_1381824798_zy_compress .jpg//a
a href= http://www。测试。com/WP-content/uploads/1020/第二张_ 1381824796 .jpg rel=外部不跟随 rel=外部不跟随
img data-zy-media-id= zy _ image _ 201310151613163009 src= http://www。测试。com/WP-content/uploads/1020/第二张_1381824796_zy_compress.jpg/
/a
a href= http://www。测试。com/WP-content/uploads/1020/第三张. jpg rel=外部nofollow rel=外部“不跟随”
img data-zy-media-id= zy _ image _ 201312311838584446 src= http://www。测试。com/WP-content/uploads/1020/第三张_zy_compress.jpg/
/a
/body
/html
这里主要包括了一标签,一个标签里面嵌入了图片标签,其中有视频幻灯片的标识该标签实际是可以播放动画的。需要根据视频幻灯片来判断将整个一标签换成播放器的录像标签,将没有视频幻灯片的一标签换成数字标签。
也就是将带有的视频幻灯片.图片.//a标签换成
class="brush:xhtml;"><div class="video">
<video controls width="100%" poster="视频链接的图片地址.jpg">
<source src="视频文件的静态地址.mp4" type="video/mp4" />
您的浏览器不支持H5视频,请使用Chrome/Firefox/Edge浏览器。
</video>
</div>
将<a ....><img .../></a>
标签换成
<figure>
这里通过BeautifulSoup4 的select()方法找到标签,通过get()方法获取标签及标签属性值,通过replaceWith来替换标签,具体代码如下:
首先安装BeautifulSoup4的库,BeautifulSoup4库依赖于lxml库,所以也需要安装lxml库。
pip install bs4
具体代码实现如下:
import os
结果:
<html>
总结
到此这篇关于Python使用BeautifulSoup4修改网页内容的文章就介绍到这了,更多相关PythonBeautifulSoup4修改网页内容内容请搜索盛行IT软件开发工作室以前的文章或继续浏览下面的相关文章希望大家以后多多支持盛行IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。