转载

从阿姆哈拉语到班图语,Google Translate新增13种语言,支持语种总数突破100大关!

发表者: Sveta Kelman, Google Translate 资深项目经理

2006 年起,我们开始在英语与阿拉伯语,中文和俄罗斯语之间使用机器学习为基础的翻译方法。十年之后,加上我们今天新增的 13 种语言, Google Translate 支持的语种总数已达到 103 种,覆盖了 99% 的线上人口。

新添加的 13 种语言包括:阿姆哈拉语、科西嘉语、弗利然语、吉尔吉斯坦语、夏威夷语、库尔德语、卢森堡语、 萨摩亚语、苏格兰盖尔语、修纳语、信德语、帕施图语以及班图语,让超过 1.2 亿人所使用的语言加入 Google Translate 大家庭。

翻译语言基本准则是书面用语,在这一准则之上,我们还需要翻译大量网络上可使用的新兴用语。因此,我们将机器学习原理,授权内容以及翻译社区( Translate Community )进行结合。

在网络上我们可以得到数十亿翻译文本,因此我们利用机器学习让系统大规模的学习语言。但已有的文章并不能完全涵盖语言的广度,我们同样也需要翻译社区的你们来帮助我们提高 Google Translate 质量并添加新语言,比如弗利然语和吉尔吉斯坦语。目前,已有超过 300 万社区群众贡献了将近 2 亿个译词。

从阿姆哈拉语到班图语,Google Translate新增13种语言,支持语种总数突破100大关!

在你深入探索翻译功能之前,这有一些关于语言的趣味信息供你了解:

  • 阿姆哈拉语(埃塞俄比亚)是阿拉伯语之后最为广泛使用的塞姆语系
  • 科西嘉语(法国科西嘉岛)与意大利语类似,是拿破仑的母语。
  • 弗利然语(荷兰,德国)是超过一半的荷兰弗里斯兰省居民的母语。
  • 吉尔吉斯坦语(吉尔吉斯坦)是吉尔吉斯族英雄史诗《玛纳斯》所使用的语言,它比《伊利亚特》和《奥德赛》相加还要长 20 倍。
  • 夏威夷语(夏威夷)已经有一些单词被英语借鉴,比如尤克里里( ukulele )和维基( wiki )。
  • 库尔德语(土耳其,伊拉克,伊朗和叙利亚)使用拉丁字母书写,而另外两种库尔德语系则使用阿拉伯文。
  • 卢森堡语(卢森堡)的添加,使 Google Translate 覆盖了完整的官方欧盟语言列表。
  • 萨摩亚语(萨摩亚群岛和美属萨摩亚群岛)的书写仅仅使用 14 个字母。
  • 苏格兰盖尔语(英国苏格兰高地)由爱尔兰移民在公元四世纪引入。
  • 修纳语言(津巴布韦)是班图人家庭在数以百计的用语中最为广泛使用的语言。
  • 信德语(巴基斯坦,印度)是巴基斯坦国父穆罕默德·阿里真纳的母语。
  • 帕施图语(阿富汗,巴基斯坦)使用波斯阿拉伯文字,并添加了 12 个字母,共计 44 个。
  • 班图语(南非)在南非是除南非语之外的第二常见语言,三个特点由字母 x q c 显现。

虽然我们已实现超过 100 种语言的相互翻译,但这一切还远远不够。如果你也想贡献一份力量,为什么不赶在 2 21 日国际母语节到来之际加入翻译社区。你只需选择日常用语,就可以进行短语翻译或者验证已有的译文。你的每一次付出都能够帮助我们提高翻译质量。同时,分享你的反馈到 Translate.Google.com ,我们非常乐意听到你的建议!

对于每一种新语言,我们通过改善算法和系统,并从翻译社区里的翻译中汲取精华,从而使翻译质量不断完善。你将在接下来的日子里体验到今天的语种更新。

无论你使用何种语言,我们希望今天的更新可以让你打破语言的隔阂,让你能够与无数新朋友自如地沟通对话。

原文  http://blog.sina.com.cn/s/blog_9c079b040102wntc.html
正文到此结束
Loading...