咨询热线:021-80392549

 QQ在线  企业微信
 资讯 > 人工智能 > 正文

微软最新的VALL-E人工智能可以在3秒内捕捉到你的声音

2023/01/13蒲公英互联226

微软研究人员展示了一种令人印象深刻的新型文本转语音人工智能模型,名为Vall-E,它可以只听声音几秒钟,然后模仿声音——包括情感语调和音响效果——说出你想说的任何话。

这是许多人工智能算法中最新的一种,它们可以利用一个人的声音录音,让它说出这个人从未说过的单词和句子——而且它只需要一小段音频就能推断出整个人类的声音,这是非常了不起的。例如,2017年蒙特利尔大学的Lyrebird算法需要整整一分钟的语音来分析,而Vall-E只需要三秒钟的音频片段。

人工智能已经接受了大约6万小时的英语演讲训练——似乎主要是通过有声读物解说员,研究人员提供了大量样本,在这些样本中,Vall-E试图操纵一系列人类的声音。有些人在捕捉声音的本质和构建听起来自然的新句子方面做得非常出色——你很难分辨出哪个是真实的声音,哪个是合成的。在其他情况下,唯一的漏洞是人工智能将重点放在句子中奇怪的地方。

Vall-E在重新创建原始示例的音频环境方面做得特别好。如果样本听起来像通过电话录制的,那么合成也是如此。它在口音方面也很不错——至少是美式、英式和一些欧洲口音。

在情感方面,结果就不那么令人印象深刻了。使用愤怒、困倦、有趣或厌恶的语音样本似乎会让事情偏离轨道,合成出来的声音听起来扭曲得很奇怪。

这类技术的影响非常明显;从积极的方面来看,将来你在超市里推手推车的时候,可以让摩根·弗里曼(Morgan Freeman)为你的购物清单念一遍。如果演员在电影中中途死亡,他们可以使用这样的系统通过深度伪造的视频和音频来完成表演。苹果公司最近推出了一套由人工智能为你朗读的有声读物目录,很显然,你很快就能在飞行中切换旁白。

消极的一面是,这对配音演员和叙述者来说并不是什么好消息。或者对听众来说;人工智能或许能够快速且廉价地完成叙述,但不要指望它有太多艺术元素。他们不会像史蒂芬·弗莱那样解读道格拉斯·亚当斯。

骗子的潜力也非常大。如果一个骗子能让你在电话上停留三秒钟,他们就能窃取你的声音,然后用它给你的奶奶打电话。或者绕过任何语音识别安全设备。这正是终结者机器人打电话时需要的东西。

当然,每个人都还在等待这样一个时刻:一个政治人物的第一次深度伪造的演讲,欺骗了足够多的人,破坏了相信你的眼睛和耳朵的概念——就好像客观真理在这个奇怪的时代还没有受到攻击一样。

微软Vall-E团队在其演示页面的末尾附加了一份简短的道德声明:“这项工作中的实验是在假设模型的用户是目标说话者并已得到说话者的批准的情况下进行的。然而,当模型推广到看不见的演讲者时,相关的组件应该伴随着语音编辑模型,包括确保演讲者同意执行修改的协议和检测编辑后的语音的系统。”

像DALL-E、ChatGPT、各种deepfake算法和无数其他创造性人工智能的崛起,感觉在过去几个月里正处于一个拐点,开始冲出实验室,进入现实世界。与所有变化一样,它带来了机遇和风险。我们真的生活在一个有趣的时代。

关键词: 人工智能




AI人工智能网声明:

凡资讯来源注明为其他媒体来源的信息,均为转载自其他媒体,并不代表本网站赞同其观点,也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑,请立即与网站(www.aichinaw.com)联系,本网站将迅速给您回应并做处理。


联系电话:021-31666777   新闻、技术文章投稿QQ:3267146135   投稿邮箱:syy@gongboshi.com

工博士人工智能网
商城
服务机器人
智能设备
协作机器人
智慧场景
AI资讯
人工智能
智能机器人
智慧城市
智慧农业
视频
工业机器人
教育机器人
清洁机器人
迎宾机器人
资料下载
服务机器人
工博士方案
品牌汇
引导接待机器人
配送机器人
酒店服务机器人
教育教学机器人
产品/服务
服务机器人
工业机器人
机器人零部件
智能解决方案
扫描二维码关注微信
扫码反馈

扫一扫,反馈当前页面

咨询反馈
扫码关注

微信公众号

返回顶部