python 标准库,Python常用的标准库

  python 标准库,Python常用的标准库

  Html库是一个解析html的工具,是python自己的标准库之一。今天,我将通过这篇文章向你介绍python中的标准库HTML。有兴趣的朋友来看看吧。

  

目录
python的标准库html__init__。py文件提供了两个功能:html库中的实体模块和html库中的解析器模块。

  

python之标准库html

  Html库是一个解析HTML的工具,是python自己的标准库之一。html库位置:

  

__init__.py文件提供两个函数:

  __all__=[escape , unescape]

  介绍 escape 和 unescape:

  Escape(s,quote=True) #用于将特殊字符转义为实体字符。

  参数介绍:

  s指定要转义的特殊字符。

  Quote默认为True,这意味着 or 也应该作为实体字符进行转义,而False不需要作为实体字符进行转义。

  Unescape(s) #用于将实体字符恢复为特殊字符。

  escape 和 unescape 的使用:

  导入html

  s=div id=boxdiv/div

  res=html.escape

  打印(分辨率)

  print(html.escape(s,quote=False))

  Print(html.unescape(res)) #只懂还原

  输出结果:

  escape源码的实现:

  

html库中的 entities 模块

  模块定义:HTML字符实体引用。该模块提供四个字典对象:

  __all__=[html5 , name2codepoint , codepoint2name , entitydefs]

  导入:

  从html导入实体

  html=entities.html5

  name 2 codep=entities . name 2 codepoint

  codep=entities.codepoint2name

  ent=entities.entitydefs

  打印(html)

  打印(名称2编码)

  印刷(编码)

  打印(ent)

  输出结果:

  

html库中的 parser 模块

  这个模块是HTML和XHTML的解析器。该模块提供一个类:

  __all__=[HTMLParser]

  导入:

  从html导入解析器

  htmlParser=解析器。HTMLParser()

  介绍这个类的公共属性和方法:常用属性:.

  Lasttag #保存最后解析的标记名并返回一个字符串。

  已实现的常用方法:

  Feed(data) #将数据提供给解析器。没有返回值

  Unescape(s) #抬头,前面有介绍。

  Get_starttag_text() #返回开始标记的完整源代码。

  Close() #关闭

  未实现的常用方法:

  注意:这些方法没有在源代码中具体实现,所以我们需要定义一个继承自HTMLParser类的子类,并在子类中重写这些方法来实现我们自己的逻辑。

  Handle_starttag(tag,attrs) #处理开始标签,如div;这里,的attrs获取属性列表,属性显示为元组。

  Handle_endtag(tag) #处理结束标签,比如/div。

  Handle_data(data) #处理数据,标签之间的文本

  Handle_comment(data) #处理评论,-之间的文本

  Handle_startendtag(tag,attrs) #处理自己的结束标记,比如img/

  以上方法在源码中是这样的:

  这就是这篇关于python的标准库html的文章。关于python的标准库html的更多信息,请搜索热门IT软件开发工作室之前的文章或者继续浏览下面的相关文章。希望你以后能支持风行IT软件开发工作室!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: