愚愚学园 前沿科学 Google 的 WaveNet AI 可以产生出更拟真的合成人声

复制链接 | 浏览器收藏 | 打印

tanjj

级别: 博士生

作者资料
发送短消息
加为好友

UID: 58994
精华: 0
发帖: 0
威望: 25 点积分转换
愚愚币: 3239 YYB 在线充值
贡献值: 0 点
在线时间: 3221(小时)
注册时间: 2009-01-03
最后登录: 2020-12-23

楼主发表于: 2016-09-12 08:53

只看楼主 | 小中大

Google 的 WaveNet AI 可以产生出更拟真的合成人声

作者： Andy Yang 20 小时前

目前常见的电脑合成人声，大致上可以分成两种：一种是利用一个庞大的样本资料库来做组合，另一种是用小的样本资料（各别的音节），但通过电子的方式去修改它的音调和语速。第一种听起来会比较自然，但需要大量的时间和精力来准备资料库，而且也很占空间；第二种则是虽然比较不占空间，但用合成的去修改音调，听起来还是比较不自然。

Google 的 DeepMind 人工智能团队（就是开发了 AlphaGo 的那个）利用了神经元网络，开发了第三种方式 -- 也就是直接拆解出声源样本，产生出一个更深层的语言「习惯」资料，之后再从这些习惯直接建构出音频档来。取决于喂给 WaveNet AI 的资料，它甚至可以模拟出嘴型动作和换气的细微声音，在音调和语速上也更有个人风格。而且 WaveNet 的应用并不止于人声而已，研究人员喂给它古典乐做为参考，它也能组合出相当有模有样的古典乐出来。

DeepMind 宣称在英文和中文上 WaveNet 可以「将真人与合成人声的差距缩小 50%」，大家可以到 DeepMind 的网站上自己听听看样本 -- 真的已经很像真人在说话了呢！

顶端

铁柳

级别: 博士生

作者资料
发送短消息
加为好友

状态: 未签到 - [599天/599次]
UID: 97577
精华: 0
发帖: 1294
威望: 10 点积分转换
愚愚币: 2256 YYB 在线充值
贡献值: 0 点
在线时间: 1416(小时)
注册时间: 2010-11-26
最后登录: 2017-12-05

1楼发表于: 2016-10-09 07:54

只看该作者 | 小中大

产生出更拟真的合成人声

顶端

愚愚学园前沿科学

分享:

愚愚学园属于纯学术、非经营性专业网站，无任何商业性质，大家出于学习和科研目的进行交流讨论。

如有涉侵犯著作权人的版权等信息，请及时来信告知，我们将立刻从网站上删除，并向所有持版权者致最深歉意，谢谢。