首页 小组 文章 相册 留言本 用户 搜索 我的社区 在线学堂 商城 购物车 支付钱包

几种编码(字符集)格式简介

2024-02-29 19:30:13
0
134

GBK:GBK即汉字内码扩展规范,K为扩展的汉语拼音中"扩"字的声母。英文全称Chinese Internal Code Specification。GBK编码标准兼容GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库。通行于中国大陆。



GB2312:是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集--基本集》,1980年由国家标准总局发布。基本集共收入汉字6763个和非汉字图形字符682个,通行于中国大陆


ISO-8859-1:ISO-8859-1编码是单字节编码,计算机最初是在美国等国家发明的,所以表示字符只有简单的几个字母只要对字母进行编码就好,向下兼容ASCII,其编码范围是0x00-0xFF,0x00-0x7F之间完全和ASCII一致,0x80-0x9F之间是控制字符,0xA0-0xFF之间是文字符号。通行于欧洲


UTF-8:UTF-8编码则是用以解决国际上字符的一种多字节编码,是在互联网上使用最广的一种unicode的实现方式。它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的论坛则用UTF-8节省空间。UTF-8编码的文字可以在各国各种支持UTF8字符集的浏览器上显示。国际通用


ASCII:包含数字,字母和符号的二进制存储编码。规定了128个字符的编码,比如空格“SPACE”是32(二进制00100000),大写的字母A是65(二进制01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。


Unicode:当然是一个很大的集合,现在的规模可以容纳100多万个符号。每个符号的编码都不一样,比如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,U+4E25表示汉字“严”。具体的符号对应表,可以查询http://unicode.org,或者专门的汉子对照表。Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。

评论
意见反馈