python使用转义字符,python中特殊字符的转义字符是什么
写爬虫是一个发送请求、提取数据、清理数据、存储数据的过程。在这个过程中,不同的数据源返回不同的数据格式,包括JSON格式和XML文档,但大部分是HTML文档。HTML中经常混有转移字符,我们需要将其转义成真实字符。
什么是转义字符
在HTML中,和等字符有特殊的含义(用于标记,用于转义),它们不能直接在HTML代码中使用。如果要在网页中显示这些符号,需要使用HTML的转义序列,比如转义字符是lt;当浏览器渲染HTML页面时,会自动用真实字符替换传输字符串。
转义序列由三部分组成:第一部分是符号,第二部分是实体的名称,第三部分是分号。例如,要显示小于号(),可以写lt;
Python 反转义字符串
Python中有很多处理转义字符串的方法,在py2和py3中处理方式不同。在python2中,反转含义字符串的模块是HTMLParser。
Python3将HTMLParser模块迁移到html.parser
在python3.4之后,在html模块中增加了unescape方法。
推荐最后一种编写方法,因为HTMLParser.unescape方法在Python3.4中已经被放弃,不推荐使用,这意味着以后的版本可能会被完全删除。
此外,sax模块还具有支持反转的功能。
当然你完全可以实现你的反意功能,并不复杂。当然,我们主张不要重复造轮子。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。