维基词典:语言
- 关于所有语言代码的列表,请参见Wiktionary:语言列表。
- 关于如何在维基词典中添加或移除语言,请参见Help:新增和删除语言。
维基词典收录了许多语言中的许多词汇。本页详述了与维基词典中各种语言相关的惯例和实践。
收录标准
[编辑]语言资讯
[编辑]为了区分不同语言,维基词典为每种语言赋予一个独特的名称和代码以作识别。此外还收集了其他资讯。
语言名称
[编辑]维基词典用独特的名称称呼其收录的每种语言。这些名称用于标题、翻译表格、分类、附录和其他地方。大多数语言只有一个名称,但有些语言可能有多个名称。在这种情况下,会选择该语言的其中一个名称在维基词典中使用。这个名称被称为该语言的“规范名称”。规范名称借由共识选定。已确认的名称(符合WT:CFI的名称)是最优先考虑的。
规范名称必须是独特的,意味着一个名称最多只能指代一种语言。当两种或更多语言通常以相同的名称为人所知时,维基词典借由各种方法为每种语言选择不同的规范名称来区分它们:
- 在许多情况下,这些语言也有其他名称。这时会选择其中一个独特的名称。
- 相同名称的不同拼写方式也可用于区分原本名称相同的语言。例如,印度和孟加拉国的 Riang(代码:
ria)在维基词典中称为“梁语”,以区别于缅甸的 Riang“日昂语”(代码:ril)。 - 如果无法通过替代名称来区分语言,则在名称后的括号中加上该语言使用地区,如“麦瓦语 (印尼)”(代码:
wmm)和麦瓦语 (新几内亚)”(代码:mti)。 - 如果语言使用相同的名称且在相同的地方使用,可以使用其语系来区分。例如,“莫尔语 (南岛语系)”(代码:
mhz)和“莫尔语 (巴布亚诸语言)”(代码:moq),这两种语言都在印尼使用。
语言代码
[编辑]维基词典中的每种语言也都有一个独特的代码,通常由两个或三个字母组成。在条目中使用模板时会使用这些代码来识别语言。这种情况下不使用语言名称,因为它们较长且较不精确,如上节所述。
标准语言代码的列表可在Wiktionary:语言列表找到,而特殊语言代码(包括仅用于词源的语言)的列表则可在其子页面Wiktionary:语言列表/特殊找到。
维基词典按以下优先顺序为语言选择代码:
- 如果该语言在ISO 639-1标准中有双字母代码,则使用该代码。维基百科有ISO 639-1代码列表。
- 如果该语言在ISO 639-3标准中有三字母代码,则使用该代码。维基百科有ISO 639-3代码列表。跨语言词语使用代码
mul。 - 如果该语言在ISO 639-2标准中有三字母代码,则使用该代码。这种情况很少见。
- 对于没有ISO代码但需要纳入维基词典的语言,会为其制定新的维基词典特有的“特例”代码。这种代码由两部分组成。第一部分是来自ISO 639-5最接近的三字母(ISO)语系代码,后面加上连字号。第二部分是一组近似于该语言名称的三个小写字母。(不使用数字、大写字母等:IANA标签允许这些,且不区分大小写,但MediaWiki软体有更严格的限制。)例如,加罗语的代码是
roa-gal:“roa”是罗曼语族的ISO 639-5代码,“gal”是“Gallo”的缩写。- 在极少数情况下,维基媒体基金会语言委员会已经制定了这种形式的代码来表示某种语言,在该语言的维基项目的URL子域名中使用;在这种情况下,我们使用维基媒体代码。例如,维基媒体基金会使用
map-bms表示班尤马山语(班尤马山语维基百科的网址是map-bms.wikipedia.org),因此维基词典也使用这个代码表示班尤马山语。如果维基媒体代码采用不同形式,则维基词典不使用;例如,塔伦蒂诺语的维基媒体代码是roa-tara,但维基词典代码是roa-tar。 - 如果该语言所属的语系没有ISO代码,或不知道该语言属于哪个语系,则使用前缀
mis:例如,加喜特语由代码mis-kas表示。 - 如果该语言是底层语言,则使用前缀
qsb而不是qfa-sub。 - 祖语或“原始语言”(通常是重建的,但有些像原始诺尔斯语是直接有史料佐证的)被赋予由语系代码加上“
-pro”组成的特例代码:例如,原始日耳曼语由代码gem-pro表示。因为使用了完整的语系代码作为代码的第一部分,所以代码可能超过七个字元:例如,原始米塞-索克语的代码是nai-miz-pro。
- 在极少数情况下,维基媒体基金会语言委员会已经制定了这种形式的代码来表示某种语言,在该语言的维基项目的URL子域名中使用;在这种情况下,我们使用维基媒体代码。例如,维基媒体基金会使用
不是所有被ISO赋予代码的语言都在维基词典中被赋予代码或被收录,例如某些人工语言。此外,有许多被ISO赋予代码的语言在维基词典中不被视为独立的语言。例如,ISO为摩尔多瓦语/摩尔达维亚语赋予了639-1代码mo,但维基词典将其视为罗马尼亚语的一种形式,并用相同的代码ro表示它和罗马尼亚语。更多资讯请参见英语维基词典的语言处理。
与维基媒体代码的不匹配
[编辑]在少数情况下,维基词典使用的(通常源自ISO的)语言代码与维基媒体基金会使用的代码之间存在不匹配。例如,阿罗马尼亚语在维基词典和ISO 639-3中由代码rup表示,但维基媒体基金会使用代码roa-rup,阿罗马尼亚语维基百科位于roa-rup.wikipedia.org。维基词典用于连结到姊妹项目的模板(如Template:wikipedia)只接受维基词典代码。为了能够连结到使用特殊代码的项目(如阿罗马尼亚语维基百科),Module:wikimedia languages将维基词典代码映射到维基媒体代码,而Module:languages则执行相反的映射。
语系
[编辑]维基词典将语言分类到语系中。大多数语系是通过共同祖先的后裔相关联的,但有少数仅仅是分类,如“克里奥尔语和皮钦语”。维基词典在Module:languages的资料模组中记录每种语言所属的语系。与语言一样,语系也有独特的代码和规范名称。
- 汉语属于汉语族(代码:
zhx)。 - 英语属于西日耳曼语支(代码:
gmw)。 - 塞尔维亚-克罗地亚语属于南斯拉夫语支(代码:
zls)。 - 阿贝纳基语属于阿尔冈昆语族(代码:
alg)。 - 古典纳瓦特尔语属于纳瓦语族(代码:
azc-nah)。
有些语言并非自然从其他语言演变而来,而是有其他起源。这些语言使用特殊类型的语系:
- 广泛使用的人工语言世界语是一种人工语言(代码:
art)。 - 查瓦卡诺语,一种克里奥尔语,被归类于克里奥尔语或皮钦语(代码:
crp)。
语言使用的文字
[编辑]维基词典也记录每种语言使用的文字(书写系统)。这些资讯主要用于模组,以便自动检测和适当格式化非拉丁字母的文字。文字系统也有独特的代码和规范名称。
- 英语使用拉丁字母(代码:
Latn)。 - 塞尔维亚-克罗地亚语同时使用拉丁字母文字和西里尔字母(代码:
Latn和Cyrl)。
查找和组织某种语言的词条
[编辑]每种语言都有一个主分类,包含英语维基词典中该语言的所有词条。这个分类的名称使用该语言的规范名称。例如,汉语的主分类是Category:汉语、法语的主分类是Category:法语。
一种语言的主分类会有各种子分类,以不同方式组织词条。最重要的是“词元”分类树,它按词性组织该语言中的所有词元。由于维基词典一直在扩展和改进,并非所有语言都有自己的分类,某些子分类可能仍然是空的或缺失的。分类会在需要时创建,即当有新条目添加到其中时。当在缺少分类的语言中添加内容时,只要名称遵循其他语言使用的标准格式,就可以简单地使用{{auto cat}}模板创建。
语言通常也有一个页面,包含对想要创建或编辑该语言条目的用户有用的资讯。这个页面的名称是“Wiktionary:关于(语言的规范名称)”,例如Wiktionary:关于西班牙语或Wiktionary:关于查蒂诺语。这些页面包含各种资讯,具体取决于其他编辑者认为有用的内容。它们可能解释使用哪些模板、关于拼写、发音或音译的具体惯例等等。按照惯例,会为这些页面创建一个快捷重定向以方便访问,名为WT:A(语言代码)。例如,WT:AEN重定向到Wiktionary:关于英语(因为其代码为en)。
存储和检索语言资讯
[编辑]模板和模组使用一个系统来存储和检索可能与语言相关的各种资讯。模组Module:languages用于从其他模组检索所有与语言相关的资讯。这个模组不能直接在模板中使用,因此还有另一个名为Module:languages/templates的模组,允许模板访问这些资讯。
关于一种语言的所有基本资讯概览,如其规范名称、替代名称、代码、语系或文字系统,都可以在Wiktionary:语言列表(或简称WT:LL)中查询。当你需要查找特定语言的代码,或需要知道某种语言的规范名称时,这很有用。
资料本身并不存储在Module:languages中,而是包含在一些资料模组中(参见Category:语言资料模块)。 关于如何编辑这些资讯的说明,请参见任何资料模组的文件。
仅用于词源的语言
[编辑]
某些言语(如方言/dialect、时间方言/chronolect和地域方言/topolect)有自己的语言代码,可以在许多类型的模板中代替完整的语言代码使用,但没有自己的二级语言条目。例如古典波斯语被赋予代码fa-cls,但其条目列在==波斯語==标题下(对应语言代码fa)。“仅用于词源的语言”这个术语最初是恰当的,因为这些语支通常只能在词源模板中使用,如{{inh}}、{{bor}}和{{der}},但它们的使用现在已经远远超出了这些模板,“仅用于词源的语言”在未来可能会更名为“语言变体”。
仅用于词源的代码完整列表可在Wiktionary:语言列表/特殊#仅用于词源的语言中找到,描述它们的源模组是Module:etymology languages/data。
另见
[编辑]- Wiktionary:方言
- Wiktionary:语系
- Wiktionary:文字
- Module:data consistency check,用于检查非唯一的规范名称和其他问题
- Wiktionary:维基媒体语言代码,关于维基媒体基金会项目URL与语言代码之间的关系