级别: 博士生
UID: 58994
精华: 0
发帖: 0
威望: 25 点
积分转换
愚愚币: 3239 YYB
在线充值
贡献值: 0 点
在线时间: 3221(小时)
注册时间: 2009-01-03
最后登录: 2020-12-23
楼主  发表于: 2016-09-12 08:53

 Google 的 WaveNet AI 可以产生出更拟真的合成人声





作者: Andy Yang   20 小时前  




目前常见的电脑合成人声,大致上可以分成两种:一种是利用一个庞大的样本资料库来做组合,另一种是用小的样本资料(各别的音节),但通过电子的方式去修改它的音调和语速。第一种听起来会比较自然,但需要大量的时间和精力来准备资料库,而且也很占空间;第二种则是虽然比较不占空间,但用合成的去修改音调,听起来还是比较不自然。

Google 的 DeepMind 人工智能团队(就是开发了 AlphaGo 的那个)利用了神经元网络,开发了第三种方式 -- 也就是直接拆解出声源样本,产生出一个更深层的语言「习惯」资料,之后再从这些习惯直接建构出音频档来。取决于喂给 WaveNet AI 的资料,它甚至可以模拟出嘴型动作和换气的细微声音,在音调和语速上也更有个人风格。而且 WaveNet 的应用并不止于人声而已,研究人员喂给它古典乐做为参考,它也能组合出相当有模有样的古典乐出来。

DeepMind 宣称在英文和中文上 WaveNet 可以「将真人与合成人声的差距缩小 50%」,大家可以到 DeepMind 的网站上自己听听看样本 -- 真的已经很像真人在说话了呢!
级别: 博士生
状态: 未签到 - [599天/599次]
UID: 97577
精华: 0
发帖: 1309
威望: 10 点
积分转换
愚愚币: 2256 YYB
在线充值
贡献值: 0 点
在线时间: 1416(小时)
注册时间: 2010-11-26
最后登录: 2017-12-05
1楼  发表于: 2016-10-09 07:54
产生出更拟真的合成人声
分享:

愚愚学园属于纯学术、非经营性专业网站,无任何商业性质,大家出于学习和科研目的进行交流讨论。

如有涉侵犯著作权人的版权等信息,请及时来信告知,我们将立刻从网站上删除,并向所有持版权者致最深歉意,谢谢。