python使用unicode编码,汉字的unicode编码值python
还有一个字符串的编码问题。
因为计算机只能处理数字,所以如果要处理文本,必须先把文本转换成数字,然后才能处理。最早的计算机是以8位作为一个字节来设计的,所以一个字节所能代表的最大整数是255(二进制1111111=十进制255),0-255用来代表大小写英文字母、数字和一些符号。这个编码表叫做ASCII编码,比如大写字母A的编码是65,小写字母。
如果要表示中文,显然一个字节是不够的,至少需要两个字节,而且不能和ASCII编码冲突。因此,我国制定了GB2312编码来编制中文。
同样,日语、韩语等其他语言也有这个问题。为了统一所有字符的编码,Unicode应运而生。把所有的Unicode语言统一成一套代码,这样就不会出现乱码问题。
Unicode通常使用两个字节来表示一个字符。原来的英文编码从单字节变成了双字节,所有高字节都需要用零填充。
因为Python的诞生早于Unicode标准,最早的Python只支持ASCII编码,常见的字符串‘ABC’在Python中都是ASCII编码。
Python后来增加了对Unicode的支持,用Unicode表示的字符串用U . 表示,比如:
打印中文
中国人
注意:中文不加u无法正常显示。
除了多了一个u以外,Unicode字符串与普通字符串没有什么不同。转义字符和多行符号仍然有效:
逃避:
u 中文\n日文\n韩文
多行:
第一行u
第二行
多行raw:
urPython的Unicode字符串支持中文,
日语,
朝鲜语和其他语言
如果中文字符串在Python环境下遇到UnicodeDecodeError,那是因为的格式有问题。py文件。您可以在第一行添加注释。
# -*-编码:utf-8 -*-
目的是告诉Python解释器用UTF-8编码读取源代码。然后用记事本另存为.并选择UTF-8格式保存。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。