听你说话半小时,百度Deep Voice 2就能学会模仿你说话

听你说话半小时,百度Deep Voice 2就能学会模仿你说话

  人工智能可以做的事情越来越多,比如图像识别、自然语言理解,还有下围棋。当然,在最后一项,AI 已经牛逼到了让人类国手都不想再跟它比赛了。

  谷歌在 Pr 围棋 AI 的同时,百度继续在语音和图像识别领域倒腾。

  之前,百度曾经推出一个叫 SwiftScribe 的软件,可以将语音转文字,这可说是记者的福音。除了语音转文字,其实百度 AI 还有一个文字转语音的软件,叫 Deep Voice,它的作用是文字转语音。据 The Verge 报道,这个 AI 说起话来,简直跟真人没啥两样,而且还几乎能实时说话。可是,这个系统一次只能学习一种声音,而且需要好几小时甚至是以上的音频去学习。

  最近,百度 AI 升级了这个软件,推出了 Deep Voice 2,它可以依靠一个半小时音频,就能学习到一个人声音跟别人的细微差别,而且一个系统可以学习成百上千种口音,也就是能模仿数百个人讲话。

  The Verge 说,其实 Siri 也能模仿地域性的口音。只是当时 Siri 学这件事的时候,花的时间可不少,因为没学一种新的声音和口音,都需要一个真人去录制数千小时的音频。之后,工程师还需要花一段时间去“调教”这个软件,教它怎么说话。

  Deep Voice 2 的操作方法有点不一样,它首先会学习几百个人说话中的共性,建立一个人类说话的基本模型,然后根据不同人说话的特性、语气、口音,去调整这个模型。这个系统不需要人手动去调整。

  “给他正确的数据,它就会自己学会什么特性是重要的。”负责这个项目的百度硅谷实验室科学家 Andrew Gibiansky 这么说。

  这个模仿不同人说话的功能,看起来有什么用?

  百度认为,这样的技术,可能会应用在智能语音助手这块,用户用声音来跟助手交流或者下达命令,后者也需要用语音去回复。如果每个语音助手有着不一样的声音,个性化定制的感觉就更强烈了,而不是每个都是前篇一律的 Siri。

  现在很多人喜欢在上班路上听电子书,这也是一种应用的领域,有了这种技术,你听语音读物的时候,里面的每一个角色,都会有属于自己的声音和相应的情绪、语气,这样听起来就生动很多了。

  其实,这样的技术也能用到语音客服上。据 36 氪了解,百度内部也有专门的语音客服团队。之前,百度和联通签署合作协议,李彦宏就说,未来要帮联通弄个智能客服。李彦宏说,人工智能为我们充值、换套餐的未来,或许已经依稀可见。在此前的百度世界大会上,李彦宏还演示了语音识别的其中一个应用场景:电话销售。如果电话客服,每次打过去,说话的人有不同的语气和口音,感觉也更像真人。

  另外,用过语音导航的宝宝们会知道,里面有不同的语音包。如果有了上面这个学说话的功能,你就能让你们家的儿女或者你的男女朋友给你录制一个语音包,如果你喜欢某大明星,你可以在网上下载他唱歌、访谈或者演讲的音频,然后让 AI 学习吧。如此一来,以后你车上给你导航的,就是你最喜欢的人的声音了。

  好吧,说完这个有点声控的功能之后吧,我们来看看其他公司在这方面做了什么。

  百度并不是唯一一家在这个领域探索的巨头,去年 9 月,谷歌的 DeepMind 团队也发布了一款声音合成器 WaveNet,这个软件在声音的质量比传统的语音合成系统有了很大的提升。

  这个赛道也有大量的创业公司。上个月,加拿大的创业公司 Lyrebird 就发布了一个新系统,它可以通过一分钟的语音数据,就能模仿很多大人物说话的。

  现在这个产业那么发达,加上 AI 逐渐学会和人你来我往地交流,以后不仅客服,声音美美哒电台主持人是不是也要失业了?

PS:如果您想和业内技术大牛交流的话,请加qq群(527933790)或者关注微信公众 号(AskHarries),谢谢!

转载请注明原文出处:Harries Blog™ » 听你说话半小时,百度Deep Voice 2就能学会模仿你说话

赞 (0)

分享到:更多 ()

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址