python 标准库,Python常用的标准库
Html库是一个解析html的工具,是python自己的标准库之一。今天,我将通过这篇文章向你介绍python中的标准库HTML。有兴趣的朋友来看看吧。
目录
python的标准库html__init__。py文件提供了两个功能:html库中的实体模块和html库中的解析器模块。
python之标准库html
Html库是一个解析HTML的工具,是python自己的标准库之一。html库位置:
__init__.py文件提供两个函数:
__all__=[escape , unescape]
介绍 escape 和 unescape:
Escape(s,quote=True) #用于将特殊字符转义为实体字符。
参数介绍:
s指定要转义的特殊字符。
Quote默认为True,这意味着 or 也应该作为实体字符进行转义,而False不需要作为实体字符进行转义。
Unescape(s) #用于将实体字符恢复为特殊字符。
escape 和 unescape 的使用:
导入html
s=div id=boxdiv/div
res=html.escape
打印(分辨率)
print(html.escape(s,quote=False))
Print(html.unescape(res)) #只懂还原
输出结果:
escape源码的实现:
html库中的 entities 模块
模块定义:HTML字符实体引用。该模块提供四个字典对象:
__all__=[html5 , name2codepoint , codepoint2name , entitydefs]
导入:
从html导入实体
html=entities.html5
name 2 codep=entities . name 2 codepoint
codep=entities.codepoint2name
ent=entities.entitydefs
打印(html)
打印(名称2编码)
印刷(编码)
打印(ent)
输出结果:
html库中的 parser 模块
这个模块是HTML和XHTML的解析器。该模块提供一个类:
__all__=[HTMLParser]
导入:
从html导入解析器
htmlParser=解析器。HTMLParser()
介绍这个类的公共属性和方法:常用属性:.
Lasttag #保存最后解析的标记名并返回一个字符串。
已实现的常用方法:
Feed(data) #将数据提供给解析器。没有返回值
Unescape(s) #抬头,前面有介绍。
Get_starttag_text() #返回开始标记的完整源代码。
Close() #关闭
未实现的常用方法:
注意:这些方法没有在源代码中具体实现,所以我们需要定义一个继承自HTMLParser类的子类,并在子类中重写这些方法来实现我们自己的逻辑。
Handle_starttag(tag,attrs) #处理开始标签,如div;这里,的attrs获取属性列表,属性显示为元组。
Handle_endtag(tag) #处理结束标签,比如/div。
Handle_data(data) #处理数据,标签之间的文本
Handle_comment(data) #处理评论,-之间的文本
Handle_startendtag(tag,attrs) #处理自己的结束标记,比如img/
以上方法在源码中是这样的:
这就是这篇关于python的标准库html的文章。关于python的标准库html的更多信息,请搜索热门IT软件开发工作室之前的文章或者继续浏览下面的相关文章。希望你以后能支持风行IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。