挑战Deepfake中科大斩获亚军，与第一名仅差0.0005

美国大选在即，为了防范 Deepfake 视频干扰选情，Twitter 和 Facebook 分别做出了应对策略，Facebook 将会删除其认定的 Deepfake 视频，而 Twitter 打算在相关视频页面给出提示。

早在去年年底，Facebook 就拿出 1000 万美元当奖金，举办全球范围内的 Deepfake 检测大赛。这也是 Kaggle 平台历史上奖金额度最高的竞赛。

后经半年的酣战，中国科技大学的俞能海、张卫明教授团队从全球 2265 支队伍中脱颖而出，获得亚军，最终成绩与第一名仅差 0.0005。此次挑战赛共收到 3.5 万个检测模型，能够夺得第二，实属不易。

该团队的周文柏博士告诉 DeepTech，本次比赛所获得的 30 万美元奖金会用于实验室建设和选手奖励。

这支名为 “WM/” 的队伍，主要由中科大信息处理中心的博士后、博士生和硕士生组成。虽然团队获奖信息在当时并未引起媒体太多关注，却在业界广为人知。不少企业主动来寻求合作，周文柏透露，华为、浙江省广电等企业就希望能够运用人工智能技术，希望预防手机拍摄的媒体素材、或者电台公开的素材被恶意窜改。

图 | Deepfake 检测挑战赛（来源：Kaggle 官网）

算力不优越，却能取得第二名

值得关注的是，这次迄今最大规模的 Deepfake 检测挑战赛也暴露出，目前的检测技术远远不够。在训练数据集上能够达到 90% 准确率的模型，到了验证数据集上，平均正确率只有 65.18%。

因此两个阶段的名次变动非常大，不少第一阶段表现优异的模型，到第二阶段败下阵来。为什么会出现这种情况？

这与比赛的数据集有关，进行训练所有数据集都是预先公布的；而在验证环节，许多直接来自视频网站，基本等同实战。正是在这些首次遇到的视频面前，一众模型纷纷失去了被调教出的火眼金睛。

来自中科大团队的周文柏博士解释，由于验证阶段的数据集很多是从视频网站上获取的野生数据，这会非常考验通过已知数据训练出模型的迁移能力。在第一阶段中，排名靠前的许多团队来自企业，拥有较好的算力资源，因此可能发挥的是算力优势，而非算法优势。

在训练阶段一些模型有潜在的过拟合现象。当遇到陌生数据集，这个缺点就会被放大。

难能可贵的是，中科大团队却势如黑马。第一阶段在 37 名，第二阶段直接蹿升到了第 2 名。

本次比赛中，有的大型企业团队使用了 100 多块 NVIDIA V100 GPU，中科大团队只用了不到 50 块 NVIDIA RTX 2080Ti GPU。无论是数量还是性能，中科大团队所使的 GPU 都与企业团队有较大差距，却依旧能得到最终第二名的优秀成绩，这足以说明其算法的优越。

图 | 中科大参赛团队 WM / 验证阶段取得第二名，比训练阶段名次上升了 35（来源：Kaggle 官网）

Deepfake 检测属于二分类的问题，即判断是真还是假。现有的分类方法大多是两种思路。一种从微观角度，沿用的是计算机视觉中图像分类的方式，比如寻找视频经过篡改所留下的像素痕迹，或是人脸部的细微特征差异。

另一种宏观角度，则借鉴了传统的取证技术的思路，从视频的整体内容上进行检测，比如语音信息和人像结合，人物形象和背景融合等方向来寻找线索。

周文柏介绍，他们团队的思路则介于微观和宏观之间，将 Deepfake 检测当做一个细粒度分类的任务。传统的图像分类是指将花、猫、鸟等对象进行分类，而细粒度分类任务则是在某一个大类下，继续分出不同的类别，比如不同的鸟类、不同型号的汽车。

大多数 Deepfake 视频的窜改痕迹非常微弱、并且只集中在局部区域，因此模型首先要捕捉到这些细微的篡改痕迹；其次，在应对实际情况时，包括光照、人脸转向等不同场景的变化，要求模型还能实现细节捕捉。

相较于密码学，或者互联网通信这样的领域，Deepfake 检测依旧处于很初步的阶段，“哪种方法效果好，就向哪个方向去靠近，没有完整的理论体系。” 周文柏形容，“我们可能抓住了问题比较本质的角度，所以取得了比较好的效果。但是现在认为的这套理论也不一定正确。”

目前的 Deepfake 检测只能判断视频是真还是假，在接下来的研究中，周文柏和同事想实现对视频的伪造做出解释。此外，还希望更多地利用视频帧与帧之间的信息作为检测依据。

目前已经有一些方法在利用这种帧与帧之间的关联进行检测，但是利用还不充分，这就导致视频的检测结果往往差于图像。“但视频有一个持续的特征，有可能比图像包含更多的信息，所以视频检测还具有非常大的研究空间。” 此外，利用生物信号来检测，也是值得研究的方向。

信息和人工智能安全研究团队，多项技术已经应用

在此次 Deepfake 检测比赛中凭借普通的算力支撑，获得了第二名，显示了中科大团队在人工智能安全领域的实力。这只是团队的成果之一。俞能海、张卫明教授团队来自中科大信息处理中心，他们研制的多项技术已在实际中运用。

图 | 俞能海（左）、张卫明（右）（来源：中科大官网）

其中，“摄屏溯源水印” 技术已在中电科、国家电网、中国电子、中国金融期货交易所等多家单位应用，并在 2019 年国家网络安全宣传周获得 “网络安全创新产品优秀奖” （第一名）和最具投资价值奖。

电子时代的信息形式发生了改变。在很多时候，电脑屏幕上的内容被手机随手拍摄，就可以轻易流传出去，并且因为没有物理痕迹，难以查证。

中科大团队开发出的 “数字水印” 就是在电子屏幕上以人眼看不见的方式打上水印。这样，被摄屏的照片就会留下标记，也就是水印中所提供的信息。用特殊的工具从图片中提取信息，就可以得知拍摄发生的时间、地点、以及机器识别码。通过这样的信息，就能在物理世界中进行泄密溯源和追踪。

图 | 数字水印技术（来源：受访者）

在人工智能安全领域，团队也一直在与阿里巴巴进行合作。像淘宝、天猫等平台的信息发布审核中，需要过滤掉危险和有害的信息。可能存在的风险是，攻击者利用人工智能技术躲过信息审核。团队在做的事情就是利用人工智能技术进行防御。

深度学习技术目前一直存在无法消除的漏洞，于是带来了相应的研究主题：对抗性攻击。

基于深度学习的计算机视觉技术尽管发展很快，却存在着致命的弱点。举例来说，一张可以被模型识别的图片，如果被加入一些噪声信息，尽管人眼看不出变化，但模型就无法准确识别了。

除了网络上的信息安全可能受这项技术影响，这项也已经被美国写入 “算法战” 中。无人机侦测的目的是把军事目标识别出来，然后传递给指挥部。利用对抗技术，将噪音以物理形式添加在武器装备上，就可以干扰无人机侦测，形成错误的作战指令。

在 Facebook Deepfake 比赛获奖之后，团队也接到了许多相关的合作需求，华为、浙江省广电等企业希望能够运用人工智能技术，以避免手机拍摄的媒体素材、或者电台公开的素材被恶意窜改。

这属于对于 Deepfake 的主动防御。中科大提供的解决方案就是基于 “对抗性攻击”，在媒体素材上增加噪音，不影响媒体视频本身的质量，但是却会对算法形成明显干扰，从而无法进行窜改。

潘多拉魔盒已开，防患于未然

Deepfake 一词诞生于 2017 年，源于网友将深度学习技术运用到视频伪造领域，现在这个词已经泛指图片和视频的 “人脸伪造” 技术。

7 月份，麻省理工学院（MIT）发布了一个 7 分钟的视频。视频中，尼克松总统悲伤地宣布了阿波罗 11 号计划失败：“命运已经注定，那些前往月球进行和平探索的人将留在月球上安息。”

这个视频来自 MIT 高级虚拟中心新成立的 “月球灾难事件” 项目。项目希望能帮助人们理解 Deepfake 能够带来的危险。

图 | MIT 月球灾难事件项目（来源：MIT）

Deepfake 自出现以来，从技术发展上而言依旧处于早期阶段，只能给人们提供简单的娱乐。如果从国家和社会安全的层面而言，这项技术将来如果继续发展，带来的威胁远大于便利。

这也是为何无论业界、学界、还是政界都对这项技术高度关注的原因。

“可能现在 AI 换脸还没有掀起大风波，但从我过去几年的惨痛经历看，应该提前做好准备，而不是被突发事件打个措手不及。”Facebook 首席技术官迈克?施罗普弗（Mike Schroepfer）表示。

更痛的记忆来自稍远的一段历史：本?拉登借助隐蔽通信制造了 9?11 事件。亡羊补牢的结果之一，是之后十几年隐蔽通信及检测技术得到了快速发展。

围绕 Deepfake，必然也会有一场长期的技术对抗。