更高分辨率更连贯!麻省理工、英伟达联合发布视频合成新方法

最近,英伟达和麻省理工学院合作发布了一篇新论文,该成果研究了由视频合成视频的问题,其目标是学习从输入视频到输出视频的映射函数,最终,输出视频中准确包含了输入视频中的内容。

目前,从视频到视频的合成问题在业内鲜有涉及。在不对时间进行动态建模的情况下,如果直接将现有的图像合成方法应用到视频合成中,往往会导致生成的视频效果较差。

图一:Cityscapes. 数据集上由分割掩码生成视频,左上图:输入视频,右上图:pix2pixHD 的效果,左下图:COVST 的效果,右下图:论文方法的效果

这篇论文在生成对抗学习的框架下,提出了一种新的由视频合成视频的方法。通过精心设计的生成模型和判别模型,加上时空对抗目标,该论文的方法在分割掩码、草图和姿态图等多种格式的输入上都生成了高分辨率、真实感强和时间连贯的视频。在多个基准测试上的实验表明,该方法优势明显。特别地,该模型能够合成长达 30 秒的 2K 分辨率的街景视频,大大提高了视频合成的技术水平。

图二:Apolloscape 数据集。左:pix2pixHD 的效果(左下角的小图是分割掩码),中:COVST 的效果,右:论文方法的效果

其中,对现实世界的景象进行动态构建的能力对于智能体来说是至关重要的。合成连续的视觉影像在计算机视觉、机器人和计算机图形学中有着广泛的应用。例如,在基于模型的强化学习中,在真实训练数据较少的情况下,合成模型生成的视频可以用来训练智能体。训练好的视频合成模型可以在没有明确指定几何场景、材料、照明和各种转换的情况下生成逼真的视频,而使用标准图形绘制技术时就需要指定上述条件,较为麻烦。

图三:视频多模态融合,合成视频的路面发生变化

视频合成问题有多种形式,比如视频预测和无条件视频合成。在这篇论文中,研究者探究了一种新的形式:由视频生成视频。

图四:修改分割掩码以生成不同的视频,原始视频见图三,左:树转换成了建筑,右:建筑转换为树

此次成果的核心之处在于学习一个映射函数,将输入视频转换为输出视频。研究者把由视频合成视频的问题看作是一个分布匹配问题,其目标是训练一个模型,对输入视频构建一个条件分布,然后近似合成类似于输入视频的真实视频。为此,研究者利用生成对抗学习框架,给定成对的输入和输出视频,学习如何将输入视频映射到输出域。通过精心设计的生成模型和判别模型以及一种新颖的时空学习目标函数,该方法可合成高分辨率、真实感强和时间连贯的视频。此外,研究者还将这种的方法扩展到视频多模态融合。对于相同的输入视频,该模型可以生成不同的视频。

图五:由人脸草图生成视频

图六:由姿势图生成视频

研究者在多个数据集上进行了实验,验证了模型将分割掩码转换为真实视频的效果。定量和定性结果都表明,该方法合成的画面看起来比那些来自强基线的画面更逼真。论文中的方法还能对视频生成结果进行灵活的高层控制。例如,在街景视频中,用户可以很容易地用树木替换所有的建筑物。在实验时,研究者以时空渐进的方式训练模型。实验从生成低分辨率和少数帧开始,一直到生成全分辨率和 30 或更多帧。生成器由粗到精分为 512*256、1024*512 和 2048*1024 三种分辨率。实验中使用 LSGAN loss,使用 ADAM 优化器进行了 40 epochs 的训练,lr = 0.0002, (?1,?2)=(0.5,0.999)。实验中使用的设备是 NVIDIA DGX1。由于图像分辨率高,即使每个 batch 只有一段短视频,也必须使用 DGX 1 中的所有 GPU(8V100 GPU,每个 GPU 有 16 GB 显存)。生成模型占 4 个 GPU,判别模型占另外 4 个 GPU。训练 2K 分辨率需要大约 10 天。

图七:视频预测 左上:真实视频,右上:PredNet 的效果,左下:MCNet 的效果,右下:论文模型的效果