UTF-8
天下维客,你可以修改的网络知识库
| 字符集 | GBK | GB 2312 | GB 18030 | BIG5 | ASCII |
| Unicode | UTF-8 | UTF-7 | MIME |
UTF-8是Unicode的其中一个使用方式。 UTF是 Unicode Translation Format(另一种说法为 UCS Translation Format),即把Unicode转做某种格式的意思。
它定义于ISO 10646,而RFC3629也定义了相似的做法。
目录 |
使用UTF-8的原因
由于要使文字档案之中的文字与ASCII兼容,故此 UTF-8 选择了使用可变长度字节来储存 Unicode ,例如ASCII字母继续使用1字节储存,重音文字、希腊字母或西里尔字母等使用2字节来储存,而常用的汉字就要使用3字节。辅助平面字元则使用4字节。
UTF-8的编码模式
UTF-8不使用大尾序和小尾序的形式。每个使用UTF-8储存的字符,除了第一个字节外,其余字节的头两个位元都是以 "10" 开始,使文字处理器能够较快地找出每个字符的开始位置。
* 0xxxxxxx (00-7f) * 110xxxxx 10xxxxxx (c0-df)(80-bf) * 1110xxxx 10xxxxxx 10xxxxxx (e0-ef)(80-bf)(80-bf) * 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx (f0-f7)(80-bf)(80-bf)(80-bf) * 111110xx 10xxxxxx 10xxxxxx (f8-fb)(80-bf)(80-bf)(80-bf)(80-bf) * 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx (fc-fd)(80-bf)(80-bf)(80-bf)(80-bf)(80-bf)
为了和UTF-16的编码空间一致,在最新的ISO 10646的标准里,最多只使用4字节编码。5字节及6字节UTF-8已不会再使用。
在UTF-8文件的开首,很多时都放置一个U+FEFF字符 (UTF-8 以 EF,BB,BF 代表),以显示这个文字档案是以UTF-8编码。
对 UTF-8 的批评
UTF-8 使用可变长度字节储存,使电脑程式设计变得复杂。 (故此,在电脑程式或操作系统内部,多采用UCS-2编码。)
在旧式的中文、日文及韩文编码之中,每字元都使用2字节储存,而UTF-8须使用3字节。 (采用UTF-16编码则可只使用2字节储存。)
泰语以往使用的ISO 8859-11,每字元只使用1字节储存,而UTF-8须使用3字节。
此外,在Windows XP版本中的记事本程序如果保存的是编码类似于UTF-8的GB2312字符,保存重新打开后将错误显示。例如:使用记事本输入“联通”两个字或“毛”字保存后再打开显示错误,如果不全是编码类似于UTF-8的GB2312字符则不会出现这种情况。
外部连结
- Rob Pike tells the story of UTF-8's creation
- Original UTF-8 paper
- RFC 3629, UTF-8 标准
- RFC 2277, IETF policy on character sets and languages
- UTF-8 和 Unicode FAQ
- UTF-8
- UTF-8 测试页
- 另一个 UTF-8 测试页
- UTF-8 and Debian 和 Linux UTF-8 How-To.


