Help:中文维基百科的繁简处理
天下维客,你可以修改的网络知识库
天下维客的繁简处理是维基百科的一项自动转换,目的是以电脑程式适应不同用字模式的差异。
中文读者和编者来自世界各地。他们提供、需求的中文在性质上有许许多多的差异,像是简化字和繁体字的差异、简体中文和繁体中文中词汇的差异、方言差异造成的书面语言的差异等等。本百科将这些中文性质集合在一起,称为「用字模式”。可以说:一种用字模式就是某些中文性质的一个集合。
为了整合读者和编者多元的资源,也为了促进各方的交流,本百科并不规范读者或编者要使用何种用字模式,而是试着以电脑程式的自动转换适应这些差异,让编者可以以自己的用字习惯提供资料,也让读者可以选择所要的资料的用字遣词。
目前的天下维客正在进行这样相当特别的电脑程式试验。因此编辑和阅读时有特别的事项需要注意。事实上,就连本页尝试说明的事项,也有许多模糊之处。
目录 |
现行的自动转换
用字模式自动转换与维基系统本身的原理有关。大部分编者输入系统的文章内容,包括文字和维基语法等等,在此称为源码。维基系统通常会保留完整不变的源码,不作自动转换。读者使用维基系统时,并非直接阅读源码,而是由系统将源码自动转换成合适的形式,例如加上图片、超连结等等。而中文天下维客的用字模式转换就是众多自动转换程序中的一道。
自动转换电脑程式的能力范围不只是百科的条目文章,也包括页面分类等等页面。
大多数时候(预设情况),本程序是根据转换表进行转换。有的时候,则是根据编者在源码中指定的方式作自动转换,包括不转换或是所谓手工转换”。
转换表就是一份列出各种不同用字模式之间,字与字或是词与词之间的对应关系的表格。目前只有管理员能编辑转换表,一般人可以向管理员提出申请。
所谓手工转换”仍然是维基系统在读者使用时作的自动转换,但是这时程序是根据编者在源码中指定的方式为优先。
编者可以在编辑存档后切换至其他用字模式查看情况。
编者请不要将含有各种用字的源码全部转换成同一种用字,尤其不要用本百科自动转换的结果。注意:自动转换程式可能会输出很多错误结果。
用字模式选择
目前天下维客系统支持中文的(中国大陆用字),(台湾用字),(香港用字),和(新加坡用字)四种用字模式。要支持更多的用字模式需要修改程序,如果有实际需要请在讨论页提出。
文章主体繁体/简体选择(按优先级):
- 所有人都可以在URL后加上
&variant=zh-xx
。xx
可为cn、tw、hk、sg
。但这-{只}-对含有这一段的URL起作用; - 已登入的用户可以在个人参数里选择所谓“中文字体”;
- 对匿名用户,系统根据用户浏览器要求的语言设置;
- 如果以上设置都没有,则缺省为zh-cn。
另,各皮肤(Skin)都增加了到各个用字模式的链接,如现在MonoBook皮肤,链接是在文章的右上方。链接的名称可以通过allwiki:variantname-zh-tw/zh-cn、allwiki:variantname-zh-tw/zh-tw等修改。如果要去掉某个链接,只需将相应的MediaWiki:variantname-zh-xx的页面内容设为disable。
界面的用字模式
界面的用字模式是独立于文章内容的用字模式的。除了中文的各种用字模式,还可以选择英文、法文等等语言。界面用字模式在已登入用户的个人参数里设置。
转换表
目前,系统预设的自动转换是根据数个转换表”。转换表就是一份表格,记载各种不同用字模式之间,字与字或是词与词之间的对应关系。又叫系统默认转换表。目前只有管理员能编辑转换表,一般人可以向管理员提出申请。
参见:allwiki:繁简体转换请求。
系统默认转换表
这里列出目前系统默认的转换表:
参见allWiki:简繁一多对应校验表及allWiki:繁简一多对应校验表。
定制转换表
管理员可以通过Mediawiki:Conversiontable/zh-cn, Mediawiki:Conversiontable/zh-tw, Mediawiki:Conversiontable/zh-sg, 及 Mediawiki:Conversiontable/zh-hk 来定制转换表。普通用户可以在Wikipedia:繁简体转换请求里提出修改转换表的建议。定制转换表可以用来修正系统默认转换表里的错误。这些页面可以象其他页面一样编写,但是描述转换关系需依以下格式:
-{
皇后 => 皇后 ;
波斯尼亚=>波士尼亚;
萨拉热窝=>塞拉耶佛 //Sarajevo的翻译;
...
}-
为方便显示,每条对应前可加星号(*)或井号(#),可用“//”加写注释,注意每条转换关系要以“;”终止。 Zhconversiontable/zh-cn页面用于向zh-cn的转换,Zhconversiontable/zh-tw页面用于向zh-tw的转换,等等。 这些页面更新后,其效果并不一定会即时显示出来,因为有些页面可能放在页面缓存里。要看即时效果可以用编辑预览功能。
关于-{}-标记
例如:“张国荣曾在英国利兹大学学习。”所用的{}标记是[[利兹大学|利兹大学]]
参见本页「不根据系统默认转换表作自动转换”。
-{注意}-:该-{}-标记的设计意图是仅对文字进行手工转换,对链接,模板等等进行手工转换可能会出错!如果要支持对非文字信息进行手工转换,则要对代码作较大的改动。
源码一般不做转换
大部分编者输入系统的文章内容,包括文字和维基语法等等,在此称为源码。维基系统通常会保留完整不变的源码,不会对源码作自动转换。
断词问题--自动转换程式很常见的问题
注意:天下维客不保证用字模式自动转换程式和内容的正确性。用字模式自动转换并不一定正确,甚至可以说是各种自动转换中问题特别多的。
转换程序使用最简单的“最大匹配”法进行转换。这会导致如下的错误:假设转换表中有一对应关系为
-{内存}- => -{记忆体}-
现对以下句子作转换
-{人体内存在很多微生物}-
基于最大匹配,系统会对“-{内存}-”进行转换,得到“-{记忆体}-”。整个句子将会被错误地转换成
-{人体记忆体在很多微生物}-
解决这个问题的根本方法是采用智能的断词匹配,将上述句子先拆分为
-{人体 内 存在 很多 微生物}-
然后再对每个词单独转换。
在具有这种智能的分词系统没有实现之前,要修正上述错误,可以有两种方法:
- 手工将涉及断词错误的词分开:“人体内-{}-存在很多微生物”
- 将涉及断词错误的多个词作为一个整体加到定制转换表里,如“-{体内存在}- => -{体内存在}-”。(注:目前只有管理员能编辑转换表,一般人可以向管理员提出申请。)
这就是断词的错误。阅读本天下维客时请多加注意。遇到可疑的部分可以前往编辑页面去查源码,或是多多留意不同用字模式之间的转换关系,以养成自行「反转换”的能力。
控制自动转换的代码
出于特殊的需要,可以用以下的语法设定不自动转换,或是「手工转换”。
设定了所谓「手工转换”,其实维基系统仍然会在阅读者使用时根据系统默认转换表作自动转换,但是这时系统还会根据编者在源码中指定(增添)的方式作转换,并且将编者的方式优先排在转换表所列出的方式之前。也就是由编者自行增添转换方式。
常用的转换工具语法
- 禁止自动转换一段文字的标签:
-{文字}- - 禁止自动转换一段文字(但作繁简转换)的标签:
文-{}-字
- 示范:旧-{}-金山,香港称{三藩市}-。
- 手工转换一段文字的标签(局部性自行增添转换方式标签):
-{zh:文字1; zh-cn:文字2; zh-tw:文字3; zh-hk:文字4; zh-sg:文字5}-
- 全文禁止自动转换:
或
- 全文手工转换标签(全面性自行增添转换方式标签):
-{A|zh:文字1;zh-cn:文字2;zh-tw:文字3;zh-hk:文字4;zh-sg:文字5;}-
- 条目标题禁止自动转换:
或
- 条目标题手工转换标签:
-{T|文字}--{T|zh:文字1;zh-cn:文字2;zh-tw:文字3;zh-hk:文字4;zh-sg:文字5;}-
条目标题
有时文章的标题不需要转换,如Wiktionary里的单字,或如-{《计算机世界报》}-之类的专有名词。在这种情况下,可以在文章中加一<nowiki></nowiki>或
<nowiki></nowiki>(注意前后都是两道下划线)来禁止对该文章标题的转换。
注意:这个标记要放在文章最开始的地方。
有时一篇文章的标题里,可能含有各地区认知不同或翻译方式差异很大的辞汇,但因为某些理由不适合透过修改转换表来达成自动转换的目的,通常是因为一些常用字。如果冒然修改转换表,可能会造成更多地方产生错误。这种情况下可以在文章内指明标题的正确显示:<nowiki>-{T|标题}-</nowiki>或<nowiki>-{T|zh-cn:中国大陆用字; zh-sg:新加坡用字}-</nowiki>。
实例:美国政治家John Kerry分别有「-{约翰·克里}-”、「-{约翰·凯利}-”与「-{约翰·克里}-”的不同译名,但如果在转换表中进行「-{克里<=>凯利}-”的互换,那么欧洲地名克里米亚与克-{里}-姆林宫将会变成「-{凯利}-米亚”与「-{凯利}-姆林宫”的错误情况,为了避免制造更多的混乱,这情况比较适合在-{zh-cn:约翰·克里;zh-tw:约翰·凯利}-的条目中以手工转换标签修正标题与内文部份的相关译名。
注意:该标记仅仅是指明文章显示时对标题的转换,而不能自动处理链接时的转换。所以使用该标记时切记要通过重定向将各种用字模式的同一标题指向该文章。如约翰·凯利。
全文禁止自动转换
有时通篇文章都需要不转换,例如讨论繁体/简体的文章。在这种情况下,可以在文章中加一<nowiki></nowiki>或
<nowiki></nowiki>(注意前后都是两道下划线)来禁止对该文章内容的转换。
注意:这个标记要放在文章最开始的地方。
自动转换的能力范围
本百科很多页面都可进行自动转换。但是仍有很多例外。例如最近更新页面Special:Recentchanges这样的特殊页面,就有一部分是不转换的。
页面分类
目前自动转换电脑程式的能力范围不只是百科的条目文章,也包括页面分类等等页面。因此除非特别指定,否则条目标题或是子分类标题的分类是根据经过自动转换之后的结果来分类。然而在此的自动转换也和别处不同,仅仅是简单的「繁简转换”,并没有进一步转换。
实例:美国政治家John Kerry分别有「-{约翰·克里}-”、「-{约翰·克里}-”与「-{约翰·凯利}-”的不同译名。译名的关系已加入转换表,而条目的源码中并没有特别指定不转换,所以阅读者使用维基系统时,并非直接阅读源码,而是由系统将源码自动转换成合适的形式。但是在页面分类中,的自动转换也和别处不同,仅仅是简单的「繁简转换”,并没有进一步转换。
在分类页Category:美国政治家之中,如果读者选择中国大陆用字或新加坡用字模式,将看到-{zh-cn:约翰·克里;zh-tw:约翰·凯利}-的条目归类在「-{约}-”字之下的-{约翰·克里}-:
而选择台湾用字或香港用字的读者则会看到这条目归类在正体的「-{约}-”字之下,然而条目名称是-{约翰·凯利}-:
子分类也是一样。
参看:页面分类。
内部连结、URL、重定向与搜寻
虽然源码一般不做转换。只有程序产生出来的页面有经过转换。然而读者收到的页面上,在维基系统之内的「内部连结”(不是外部连结或普通的URL,参见Help:链接),并不是由源码决定,是由程序产生出来的页面决定。也就是说:连结也会受到自动转换电脑程式影响。
- 同上例:从2004年3月8日到2005年3月26日之前,维基百科上面只有-{约翰·克里}-条目,而没有台湾用字模式的-{约翰·凯利}-条目,也没有将「-{约翰·凯利}-”重定向至-{约翰·克里}-。这段时间如果在源码中有
[[-{约翰·凯利}-]]这段代码的话,那么:
- 如果有人是用非「不转换”模式来浏览的话,那么可以收到连往「-{约翰·克里}-”页面的「-{约翰·凯利}-”(系统会在用字模式自动转换之后自动加上连到「-{约翰·克里}-”的连结)。
- 如果有人是用「不转换”模式来浏览的话,那么会收到有待编辑的「-{约翰·凯利}-”(因为系统直接连到当时什么都没有的「-{约翰·凯利}-”)。
用字自动转换电脑程式的能力范围不包括维基百科的URL与搜索功能。百科的系统不会对URL之中的汉字(有时是Punycode的代号形式),或是输入搜索功能的查询字串作用字转换。
- 同一例:这段时间,「-{约翰·凯利}-”无论是条目名称或是其相关的URL(例如 http://zh.wikipedia.org/wiki/-{约翰·凯利}-)都是空的。直到2005年3月26日,Zhengzhu将「-{约翰·凯利}-”重定向至-{约翰·克里}-,-{约翰·凯利这个条目}-,以及相关的URL才有内容。
重定向页的内容不会受到自动转换电脑程式影响。
- 同一例:Zhengzhu所加入的重定向代码如下:
#REDIRECT[[约翰·克里]]
- 这并不受自动转换电脑程式影响。请看http://....title=-{约翰·凯利}-&redirect=no&variant=zh-tw
本百科的搜索也会受到自动转换电脑程式影响。本百科之外的搜寻引擎如Google可能有自己的自动转换电脑程式。目前已知搜索时会作简单的繁简转换。当需要建立繁简重定向页的时候,建立新条目的方式往往无法奏效。
如何建立繁简重定向页
-{zh-cn:登录;zh-tw:登入}-的用户可以使用移动页面功能来建立繁简重定向页。比方说,假设现在有个名为「-{沈阳}-”的条目,而你想要建立从「-{渖阳}-”到「-{沈阳}-”的重定向页,那么应该要进行两次移动:
- 将「-{沈阳}-”移动到「-{渖阳}-”。
- 将「-{渖阳}-”移动到「-{沈阳}-”。
其结果将是「-{沈阳}-”的条目维持原状,而「-{渖阳}-”成为指向「-{沈阳}-”的重定向页。
第二次移动看似多余,但会带来两个好处:
- 对该条目历来参与者的尊重 —— 未经讨论贸然改变一个条目的名称是不恰当的行为。
- 一旦条目名称改变,原本指向该条目的连结虽会以重定向的方式指向正确的条目,但长期来说所有重定向连结都应该用直接连结取代。修改所有这些连结会增加天下维客的维护成本(尤其是其他语言的维基百科也有可能透过跨语言连结连向这些页面),比起此种额外负担,将条目保持原有名称会是更有效率的作法。
编辑一般文章时的注意事项
- 文章以及分类的标题必须是全部为简体或繁体字,如果标题繁简混杂,例如「-{中国历史}-”,或是(常见的)「-{台湾}-”,那么系统将不作自动转换。
- 在以前许多事物有繁简体两个版本的不同文章来介绍。现在需要通过手工将这样的文章合并起来。具体请参看allwiki:繁简处理。
- 当需要建立繁简重定向页的时候,建立新条目的方式往往无法奏效,这时请参考allwiki:重定向#中文繁简体问题。
参看
- 粤语
- 新加坡
- 华侨
- 简体中文
- 繁体中文
- allwiki:繁简处理--介绍繁简体问题的由来发展。
- allwiki:繁简处理/转换原理--介绍转换表的原理。
- allwiki:繁简分歧词表--转换表本身的内容。


