天空中翱翔的海鸥凭空消失,沙漠中的背包客在行走中人间蒸发……这些原本需要电影制作人员完成的视频特效又一次被人工智能“学会了”。
近期,一项收录于欧洲计算机视觉国际会议(ECCV)的研究开发了一种人工智能视频处理算法,可以在视频画面里抹除运动中的物体,同时保持运动边界的清晰度。
这项研究题为《光流 - 边缘引导的视频补全》(Flow-edge Guided Video Completion),由美国弗吉尼亚理工大学和Facebook合作完成,第一作者是美国弗吉尼亚理工大学计算机工程专业的博士生高谌。
高谌目前师从弗吉尼亚理工大学助理教授Jia-Bin Huang,研究领域是计算摄影和计算机视觉,研究集中在图像/视频操作和视觉场景理解。
正在骑马的运动员和马匹一起消失
在高湛及其同事展示的研究成果画面中,各类运动中的物体,如摆动中的秋千、正在骑马的运动员、海上行驶的帆船等,通通在视频里“无痕”消失,肉眼看不出人为的编辑痕迹。
这项研究的另一位作者Jia-Bin Huang在社交媒体中透露,该算法可以在随意拍摄的视频中无缝地移除对象、水印或扩大画面视野。这一算法还得到图灵奖得主、人工智能科学家Yann LeCun 的推荐。
高湛等人在论文中介绍,这是一种基于光流的视频补全算法。视频补全(video completion)任务是用新合成的内容填充给定的时空区域。它有许多应用,例如修复(去除划痕)、视频编辑、特效工作流(去除不需要的对象)、去水印和标志以及视频稳定。
对于视频补全任务而言,难点是新生成的内容需要无缝地嵌入到视频中,并且更改应尽可能不被察觉。几年前,业界通用的方法是基于补丁的合成技术。但这些方法通常合成速度慢,合成新内容的能力有限,只能重新混合视频中已有的补丁。
后来出现了基于学习的技术,能够实现更合理的合成效果,但是由于视频的高内存要求,存在分辨率问题。
作者认为,目前最成功的视频补全方法是基于光流的技术,其能够合成色彩和光流,沿着光流的轨迹传递颜色,以提升视频的时间连贯性,从而减轻内存问题并实现高分辨率输出。
这项新研究也采用了基于光流的办法。作者表示,以往的光流补全方法往往无法保持运动边界的清晰度,而他们所开发的方法首先提取并补全运动物体的边缘,再以光流边缘为引导补全光流。由于并非所有视频中缺失的区域都能通过这种方法补全,研究人员引入了非局部光流,使得视频内容能够在运动边界上传播。
作者称,可视化和定量结果都表明,他们的方法与最新的算法相比具有更好的性能。他们同时指出,其方法的运行速度为0.12fps(frames Per Second,每秒传输帧数),与其他基于光流的方法相当,运行速度稍慢是一大弱点。