Facebook AI通过“学习”视频，能自动生成游戏角色？

AI 在未来几年可能颠覆整个游戏产业制作流程。

传统游戏制作往往需要经过原画设定、3D 场景搭建、特效设计、3D 角色构建等多个环节完成，而在未来，这些工作都有望交给 AI 来做。

近日，Facebook AI 研究团队描述了一个能够从现实世界视频中提取可控角色的系统。利用该系统，可以从日常视频中随意创建虚拟人物及各种姿势动作。

三位 AI 研究人员创建的这种新方法（Vid2Game: Controllable Characters Extracted from Real-World Videos），可以将一个视频中的真人转换成一个 3D 游戏角色，并且可以将此角色及其相关动作转换到新背景上。研究人员称，生成的角色可以和不同的背景互动。

据介绍，这套 AI 系统主要依赖于两个神经网络。一个是由 Pose2Pose（P2P）网络基于控制信号的输入流（例如来自操纵杆或游戏手柄的控制信号）以自动回归方式操纵给定姿势。另一个是 Pose2Frame（P2F），在随后给定背景图像的情况下生成高分辨率视频帧。它们通过“学习”视频中的人物身体形状、运动风格及其他特征，以此来建立游戏角色。系统最终生成的视频具有高度的个性化和逼真性，可大大提升玩家的游戏体验。

“我们的模型可以从视频中提取一个角色，并能控制它的动作。”该论文的共同作者在文章中解释道，“模型能有效地捕捉到人的动态和外观，生成角色的图像序列，生成的视频可以具有任意背景”。研究人员称该系统具有足够强的鲁棒性，可在动态背景下任意定位提取人物特征。

首先，需要将包含一个或多个人物特征的视频输入到针对特定域（例如，跳舞）训练的 Pose2Pose 网络，将其运动状态和自身隔离，用于确定哪些背景区域可以被合成图像所替换。随后 Pose2Frame 网络运用这些组合的运动姿势数据，区分场景中与角色相关的变化，如阴影、反射以及角色的独立特征。最后与预先设计好的背景混合输出。

在实验部分，研究人员采集了三段视频，每段视频长度为五到八分钟，视频的主角分别是一个户外网球运动员，一个在室内舞剑的人，和一个正在走路的人。之后与一个用三分钟跳舞视频训练的神经网络相比，该实验结果对人物动态元素的捕捉更为成功。（排除角色服装和镜头角度的变化）。

该技术投入使用后，人们将有机会成为游戏中人物的化身，自定义游戏角色，并赋予角色独有的动作形态。这项基于 AI 技术的角色生成系统可能会催生更多不同类型的游戏，逼真且个性化可能是未来游戏行业发展的一个方向。