GB2312 编码,请解释GB2312编码
GB2312-HEROWANG专栏-博客频道-CSDN编码规则。网
GB2312编码规则
分类:
一塌糊涂
2008-06-10 16:50
303人阅读
评论(2)
收集
GB2312标准共报告汉字6763个,其中一级汉字3755个,二级汉字3008个。同时,GB2312包含682个全格式字符,包括拉丁字母、希腊字母、日本平假名和片假名字母以及俄罗斯西里尔字母。
GB2312的出现基本满足了计算机处理汉字的需要,其所包含的汉字已经覆盖了99.75%的使用频率。在GB2312中,将接收到的汉字进行“分区”,每个分区包含94个汉字/符号。这种表示也称为位置代码。
01-09区是一个特殊的符号。
6-55区为一级汉字,按拼音排序。
56-87区是二级汉字,按部首/笔画排序。
区域10-15和88-94没有编码。
比如“A”是GB2312中的第一个汉字,区号是1601。在使用GB2312的程序结构中,为了与ASCII兼容,通常采用EUC存储方法。每个汉字和符号由两个字节表示。第一个字节称为“高字节”,第二个字节称为“低字节”。0xa 1-0xf 7(01-87的区号加0xA0)用于“高字节”,0xa 1-0x Fe(01-94加0xA0)用于“低字节”。比如“ah”这个词在大部分程序中会被存储为0xB0A1。(对比区号:0xB0=0xA0 16,0xA1=0xA0 1)。
所以在GB2312码中,汉字的十进制数是176到247,位码是161到255。之所以存储的6763小于82*94=6768,是因为215和250-254之间有五个码没有汉字,所以6768-5=6763。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。