HTMLparser,

  HTMLparser,

  说明

  1、html解析器提供了一种方便简洁的处理超文本标记语言文件的方法。

  它根据树形结构将超文本标记语言页面中的标签分析成一个节点,一种类型的节点对应一个类,通过调用它可以轻松访问标签中的内容。

  2、html本质上是可扩展标记语言的子集,但是超文本标记语言的语法没有超文本标记语言严格,不能用标准的数字正射影像图或者萨克斯管来分析html。

  实例

  来自html。parserimporthtmlparser

  来自html。entitiesimportname 2代码点

  类myhtml解析器(html解析器):

  defhandle_starttag(self,tag,attrs):

  打印(“% s”%标签)

  defhandle_endtag(self,tag):

  打印(/% s %标记)

  defhandle_startendtag(self,tag,attrs):

  打印(“% s/”%标签)

  defhandle_data(self,data):

  打印(数据)

  defhandle_comment(self,data):

  打印(!-,数据,-)

  defhandle_entityref(self,name):

  打印(“% s;”%name)

  defhandle_charref(self,name):

  打印(“# % s;”%name)

  parser=MyHTMLParser()

  parser.feed(html

  头/头

  身体

  !- testhtmlparser -

  PSO meahref= # html/aHTMLtutorial.布伦德/p

  /body/html )

  //测试结果

  超文本标记语言

  头

  /头

  身体

  !- testhtmlparser -

  p

  一些

  a

  超文本标记语言

  /a

  超文本标记语言教程.

  英国铁路公司

  结束

  /p

  /body

  /html以上就是大蟒中解析器解析html,希望对大家有所帮助。更多计算机编程语言学习指路:python基础教程

  本文教程操作环境:windows7系统、Python 3.9.1、戴尔自交第三代电脑。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: