allwiki首页  
天下维客 你可以修改的网络知识库
首页最近更改优秀条目专题展示电脑科技词典软件学习网络知识电脑安全明星时尚天下百科
 

UTF-8

天下维客,你可以修改的网络知识库

Jump to: navigation, search
字符集 GBK GB 2312 GB 18030 BIG5 ASCII
Unicode UTF-8 UTF-7 MIME

UTF-8Unicode的其中一个使用方式。 UTF是 Unicode Translation Format(另一种说法为 UCS Translation Format),即把Unicode转做某种格式的意思。

它定义于ISO 10646,而RFC3629也定义了相似的做法。

目录

使用UTF-8的原因

由于要使文字档案之中的文字与ASCII兼容,故此 UTF-8 选择了使用可变长度字节来储存 Unicode ,例如ASCII字母继续使用1字节储存,重音文字希腊字母西里尔字母等使用2字节来储存,而常用的汉字就要使用3字节。辅助平面字元则使用4字节。

UTF-8的编码模式

UTF-8不使用大尾序和小尾序的形式。每个使用UTF-8储存的字符,除了第一个字节外,其余字节的头两个位元都是以 "10" 开始,使文字处理器能够较快地找出每个字符的开始位置。

* 0xxxxxxx                                               (00-7f)
* 110xxxxx 10xxxxxx                                      (c0-df)(80-bf)
* 1110xxxx 10xxxxxx 10xxxxxx                             (e0-ef)(80-bf)(80-bf)
* 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx                    (f0-f7)(80-bf)(80-bf)(80-bf)
* 111110xx 10xxxxxx 10xxxxxx           (f8-fb)(80-bf)(80-bf)(80-bf)(80-bf)
* 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx  (fc-fd)(80-bf)(80-bf)(80-bf)(80-bf)(80-bf)

为了和UTF-16的编码空间一致,在最新的ISO 10646的标准里,最多只使用4字节编码。5字节及6字节UTF-8已不会再使用。

在UTF-8文件的开首,很多时都放置一个U+FEFF字符 (UTF-8 以 EF,BB,BF 代表),以显示这个文字档案是以UTF-8编码。

对 UTF-8 的批评

UTF-8 使用可变长度字节储存,使电脑程式设计变得复杂。 (故此,在电脑程式或操作系统内部,多采用UCS-2编码。)

在旧式的中文、日文及韩文编码之中,每字元都使用2字节储存,而UTF-8须使用3字节。 (采用UTF-16编码则可只使用2字节储存。)

泰语以往使用的ISO 8859-11,每字元只使用1字节储存,而UTF-8须使用3字节。

此外,在Windows XP版本中的记事本程序如果保存的是编码类似于UTF-8的GB2312字符,保存重新打开后将错误显示。例如:使用记事本输入“联通”两个字或“毛”字保存后再打开显示错误,如果不全是编码类似于UTF-8的GB2312字符则不会出现这种情况。

外部连结

Template:Unicode related

Personal tools
工具
金银币拍卖 金币拍卖预展  金银币网店 熊猫金银币 生肖金银币