微软研究人员展示了一种令人印象深刻的新型文本转语音人工智能模型,名为Vall-E,它可以只听声音几秒钟,然后模仿声音——包括情感语调和音响效果——说出你想说的任何话。
这是许多人工智能算法中最新的一种,它们可以利用一个人的声音录音,让它说出这个人从未说过的单词和句子——而且它只需要一小段音频就能推断出整个人类的声音,这是非常了不起的。例如,2017年蒙特利尔大学的Lyrebird算法需要整整一分钟的语音来分析,而Vall-E只需要三秒钟的音频片段。
人工智能已经接受了大约6万小时的英语演讲训练——似乎主要是通过有声读物解说员,研究人员提供了大量样本,在这些样本中,Vall-E试图操纵一系列人类的声音。有些人在捕捉声音的本质和构建听起来自然的新句子方面做得非常出色——你很难分辨出哪个是真实的声音,哪个是合成的。在其他情况下,唯一的漏洞是人工智能将重点放在句子中奇怪的地方。
Vall-E在重新创建原始示例的音频环境方面做得特别好。如果样本听起来像通过电话录制的,那么合成也是如此。它在口音方面也很不错——至少是美式、英式和一些欧洲口音。
在情感方面,结果就不那么令人印象深刻了。使用愤怒、困倦、有趣或厌恶的语音样本似乎会让事情偏离轨道,合成出来的声音听起来扭曲得很奇怪。
这类技术的影响非常明显;从积极的方面来看,将来你在超市里推手推车的时候,可以让摩根·弗里曼(Morgan Freeman)为你的购物清单念一遍。如果演员在电影中中途死亡,他们可以使用这样的系统通过深度伪造的视频和音频来完成表演。苹果公司最近推出了一套由人工智能为你朗读的有声读物目录,很显然,你很快就能在飞行中切换旁白。
消极的一面是,这对配音演员和叙述者来说并不是什么好消息。或者对听众来说;人工智能或许能够快速且廉价地完成叙述,但不要指望它有太多艺术元素。他们不会像史蒂芬·弗莱那样解读道格拉斯·亚当斯。
骗子的潜力也非常大。如果一个骗子能让你在电话上停留三秒钟,他们就能窃取你的声音,然后用它给你的奶奶打电话。或者绕过任何语音识别安全设备。这正是终结者机器人打电话时需要的东西。
当然,每个人都还在等待这样一个时刻:一个政治人物的第一次深度伪造的演讲,欺骗了足够多的人,破坏了相信你的眼睛和耳朵的概念——就好像客观真理在这个奇怪的时代还没有受到攻击一样。
微软Vall-E团队在其演示页面的末尾附加了一份简短的道德声明:“这项工作中的实验是在假设模型的用户是目标说话者并已得到说话者的批准的情况下进行的。然而,当模型推广到看不见的演讲者时,相关的组件应该伴随着语音编辑模型,包括确保演讲者同意执行修改的协议和检测编辑后的语音的系统。”
像DALL-E、ChatGPT、各种deepfake算法和无数其他创造性人工智能的崛起,感觉在过去几个月里正处于一个拐点,开始冲出实验室,进入现实世界。与所有变化一样,它带来了机遇和风险。我们真的生活在一个有趣的时代。