Google 的这个黑科技能给视频“降噪”,只听你想听到的声音

Google 的这个黑科技能给视频“降噪”,只听你想听到的声音

一位二次元朋友说他有一种能力,就是在 B 站开弹幕看视频时,想看视频就看视频,想看弹幕就看弹幕,两者可以自动分离,不会互相干扰。类似的,人类在听觉上也有一种选择能力,就是人在集中注意力听某个声音时,可以自动忽略其他声音或噪音,感觉像是把要听的声音放大了一样,这种现象叫做鸡尾酒会效应。

这种能力对我们来说好像很自然,但对于计算机可是个不小的挑战。最近,Google 的研究人员创建了一个视听模型,可以通过算法将视频中的多个声音分离,得到一个清晰的单个语音。简单来说,你可以选择只听视频中某个人讲话的声音,而不用担心被干扰。

结合视觉听觉信号,识别并分离音轨

利用这种技术制作的视频可以将特定人物的声音增强,把其他无关的声音去掉。在普通的单音轨视频中,用户可以点击自己想关注的人物,或者算法会结合上下段内容来自动选择突出谁的声音。这项技术可以用于增强视频中的语音,提高视听效果。

这项技术的原理是结合视频中的听觉和视觉信号,以此来识别并分离语音。就像识别唇语的原理一样,一个人说话时发出的声音和他嘴部的运动存在某种关联,所以可以利用这一点,来辨别某段声音是谁发出的。在视觉信号的帮助下,即使是在多种声音混杂的环境中,单个声音的特征也变得更明显,更重要的是,你还可以在听到清晰声音的同时看到人嘴部的运动,更容易接收并理解信息。

研究人员用 10 万个高质量的 YouTube 视频为样本,从视频中提取清晰的演讲片段,没有背景音乐、没有观众鼓掌、没有噪音,并且视频中只有一个说话的人。他们共提取出 2000 个小时的训练数据,用这些干净的视频来合成「鸡尾酒会」的效果。这样就可以训练一个卷积神经网络模型,将合成的视频分离出多个单独的音轨,也就是每个人单独的声音。将每一帧中嘴部运动的视觉信息提取出来,然后找到声谱图中对应的部分。这样就可以训练神经网络,从声音混杂的视频中,根据人的嘴部运动来提取对应的声音碎片,最后输出成具有单独声音轨道的视频,每一个人的声音都可以进行单独播放。

可以提高语音识别能力

这个黑科技在语音识别中尤其有用,比如 YouTube 自己的自动字幕,如果视频中有多种声音混合,字幕就很难准确显示,而如果这几种声音能够单独分离播放,对应的字幕也就更准确,用户也更容易理解。再往远处想,这项技术可以运用到 Google Glass 这样的智能眼镜中,即使是在纷杂世界,你也可以只关注想关注的人,只听 Ta 的声音。除此之外,带视频能力的智能音箱可能是未来的大趋势,有了语音分离能力,语音识别的能力也会更精准、更强大。

这种强大的能力也可能带来隐私问题,比如间谍电影中经常见到的天眼系统,如果再搭配语音分离的能力,岂不是可以做到视听上的全能?不过想达到那样的效果,识别能力就要很精准了。在此之前它的应用可能只是 Google 自己的产品,比如增强视频智能音箱的语音识别能力,还有让 YouTube 的自动字幕更智能。

本站部分文章源于互联网,本着传播知识、有益学习和研究的目的进行的转载,为网友免费提供。如有著作权人或出版方提出异议,本站将立即删除。如果您对文章转载有任何疑问请告之我们,以便我们及时纠正。

PS:推荐一个微信公众号: askHarries 或者qq群:474807195,里面会分享一些资深架构师录制的视频录像:有Spring,MyBatis,Netty源码分析,高并发、高性能、分布式、微服务架构的原理,JVM性能优化这些成为架构师必备的知识体系。还能领取免费的学习资源,目前受益良多

转载请注明原文出处:Harries Blog™ » Google 的这个黑科技能给视频“降噪”,只听你想听到的声音

赞 (0)
分享到:更多 ()

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址