转载

案例丨从Google Translate看大数据在语言翻译中的应用

Google Translate目前是翻译机器翻译中比较受欢迎的，也是翻译效果比较好的。Google Translate质量有所提升，其关键并不在于语言学和语料库研究的突破，而是因为一项技术： 大数据 。

在大数据出现之前，传统机器翻译遵循以下规则：先设定好一套尽可能完善的语法规则以及两种语言的对应词库，然后根据这套规则对输入的语言进行翻译。

谷歌用了大数据这一技术，使翻译质量得到了大大的提高。

Och 在Google Translate官方博客的一篇题目为《打破语言的隔阂》的文章中介绍了一些Google Translate的发展史。Google Translate项目起源于2001年，当时仅提供9种语音互译的服务。尽管它采用了当时世界领先的机器翻译，但是翻译质量并不高，几年来也没有什么提高。到2003年，他们发现了一种数据驱动的方法——通过收集大量网络语言资源进行辅助。但是期初运行速度非慢。2006年，Google Translate改进了“统计机器翻译”。

Google Translate的核心技术在于“统计机器翻译”，之所以采用“统计机器翻译”，一个重要原因是Google的云计算架构。机器翻译需要海量的数据储存空间以及高效的运算能力，而Google拥有分布式计算系统和分布式储存系统，恰好满足了这方面的需求。

简单来说，使用大数据进行翻译是并不是按照语法规则来翻译的，而是将整个句子放到互联网库中进行搜索，统计出整个互联网上所有与这句话翻译相关的结果，而统计次数最高的译文就可以最为最终答案参考。这样一来，Google翻译出来了结果就有了很好的效果，被用户接受程度也最高，翻译的质量有了很大提高。

从Google Translate的例子可以看出，其实“大数据”的应用并不是说只在一些“理工科的领域”，它必将会渗透到我们生活的方方面面，给我们的生活带来极大的不同和改变。