作者: Andy Yang 20 小时前
目前常见的电脑合成人声,大致上可以分成两种:一种是利用一个庞大的样本资料库来做组合,另一种是用小的样本资料(各别的音节),但通过电子的方式去修改它的音调和语速。第一种听起来会比较自然,但需要大量的时间和精力来准备资料库,而且也很占空间;第二种则是虽然比较不占空间,但用合成的去修改音调,听起来还是比较不自然。
Google 的 DeepMind 人工智能团队(就是开发了 AlphaGo 的那个)利用了神经元网络,开发了第三种方式 -- 也就是直接拆解出声源样本,产生出一个更深层的语言「习惯」资料,之后再从这些习惯直接建构出音频档来。取决于喂给 WaveNet AI 的资料,它甚至可以模拟出嘴型动作和换气的细微声音,在音调和语速上也更有个人风格。而且 WaveNet 的应用并不止于人声而已,研究人员喂给它古典乐做为参考,它也能组合出相当有模有样的古典乐出来。
DeepMind 宣称在英文和中文上 WaveNet 可以「将真人与合成人声的差距缩小 50%」,大家可以到 DeepMind 的网站上自己听听看样本 -- 真的已经很像真人在说话了呢!