转载

案例丨从Google Translate看大数据在语言翻译中的应用

Google Translate目前是翻译机器翻译中比较受欢迎的,也是翻译效果比较好的。Google Translate质量有所提升,其关键并不在于语言学和语料库研究的突破,而是因为一项技术: 大数据

案例丨从Google Translate看大数据在语言翻译中的应用
在大数据出现之前,传统机器翻译遵循以下规则:先设定好一套尽可能完善的语法规则以及两种语言的对应词库,然后根据这套规则对输入的语言进行翻译。

谷歌用了大数据这一技术,使翻译质量得到了大大的提高。

Och 在Google Translate官方博客的一篇题目为《打破语言的隔阂》的文章中介绍了一些Google Translate的发展史。Google Translate项目起源于2001年,当时仅提供9种语音互译的服务。尽管它采用了当时世界领先的机器翻译,但是翻译质量并不高,几年来也没有什么提高。到2003年,他们发现了一种数据驱动的方法——通过收集大量网络语言资源进行辅助。但是期初运行速度非慢。2006年,Google Translate改进了“统计机器翻译”。

Google Translate的核心技术在于“统计机器翻译”,之所以采用“统计机器翻译”,一个重要原因是Google的云计算架构。机器翻译需要海量的数据储存空间以及高效的运算能力,而Google拥有分布式计算系统和分布式储存系统,恰好满足了这方面的需求。

简单来说,使用大数据进行翻译是并不是按照语法规则来翻译的,而是将整个句子放到互联网库中进行搜索,统计出整个互联网上所有与这句话翻译相关的结果,而统计次数最高的译文就可以最为最终答案参考。这样一来,Google翻译出来了结果就有了很好的效果,被用户接受程度也最高,翻译的质量有了很大提高。

从Google Translate的例子可以看出,其实“大数据”的应用并不是说只在一些“理工科的领域”,它必将会渗透到我们生活的方方面面,给我们的生活带来极大的不同和改变。

案例丨从Google Translate看大数据在语言翻译中的应用

注:转载文章均来自于公开网络,仅供学习使用,不会用于任何商业用途,如果侵犯到原作者的权益,请您与我们联系删除或者授权事宜,联系邮箱:contact@dataunion.org。转载数盟网站文章请注明原文章作者,否则产生的任何版权纠纷与数盟无关。

原文  http://dataunion.org/24799.html
正文到此结束
Loading...