python使用转义字符,python中特殊字符的转义字符是什么

  python使用转义字符,python中特殊字符的转义字符是什么

  写爬虫是一个发送请求、提取数据、清理数据、存储数据的过程。在这个过程中,不同的数据源返回不同的数据格式,包括JSON格式和XML文档,但大部分是HTML文档。HTML中经常混有转移字符,我们需要将其转义成真实字符。

  什么是转义字符

  在HTML中,和等字符有特殊的含义(用于标记,用于转义),它们不能直接在HTML代码中使用。如果要在网页中显示这些符号,需要使用HTML的转义序列,比如转义字符是lt;当浏览器渲染HTML页面时,会自动用真实字符替换传输字符串。

  转义序列由三部分组成:第一部分是符号,第二部分是实体的名称,第三部分是分号。例如,要显示小于号(),可以写lt;

  Python 反转义字符串

  Python中有很多处理转义字符串的方法,在py2和py3中处理方式不同。在python2中,反转含义字符串的模块是HTMLParser。

  Python3将HTMLParser模块迁移到html.parser

  在python3.4之后,在html模块中增加了unescape方法。

  推荐最后一种编写方法,因为HTMLParser.unescape方法在Python3.4中已经被放弃,不推荐使用,这意味着以后的版本可能会被完全删除。

  此外,sax模块还具有支持反转的功能。

  当然你完全可以实现你的反意功能,并不复杂。当然,我们主张不要重复造轮子。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: