给T恤印上一个图案，就能在监控下实现“隐身”？

近日，一个来自比利时鲁汶大学（KU Leuven）的科研团队发现，使用特殊设计的图案遮挡部分身体，就可以让基于 YOLOv2 模型的监控系统丧失对人物的识别能力，从而实现在摄像头下顺利”隐身”的效果。他们把这样的图案叫做”对抗图案”(Adversarial Patch)。

监控探头在如今的大小城市中随处可见。据报道，北京市在 2015 年就已建成了由 3 万余个监控探头组成的立体防控网络，覆盖了城市街道的所有重点部位。这些探头在交通管理、治安联防、环境保护等各个方面，都发挥着越来越重要的作用。

近年来，卷积神经网络（CNN）模型在学术界早已风生水起。其中许多技术的应用，特别是用于监控探头的对象识别，也已经进入了我们的日常生活。

图 | 基于卷积神经网络 (CNN) 的街面对象识别（来源：Dayan Mendez/Ebenezer Technologies）

然而，CNN模型的缺点却也十分明显。

首先，我们目前无法彻底地解释它实现图像识别的机制。CNN 模型的结构通常十分复杂。在训练中，模型不断地识别不同类型的图片，自主调整上百万个参数的数值，最终就可以达到极高的识别准确率。

这就像是一个”黑箱子”，我们只知道放入一个图片，就能得到它的类别名称，但是我们看不到也弄不清箱子里的过程。更重要的是，由于训练数据中并不存在为了迷惑识别器而特意设计的图片（比如给衣服印上特制图案），识别器对不常见的变化就几乎完全不能宽容。

Ian Goodfellow 带领的团队曾经做过这样的实验，对图片中个别的像素点数值做一些人眼无法察觉的细微修改之后，CNN模型就彻底丧失了识别的准确率。正所谓即使数据只是”失之毫厘”，CNN 识别器的功效也会”谬以千里”。

由鲁汶大学副教授 Toon Goedemé带领的团队，便是利用了 CNN 模型的这些”弱点”。发明了一套严谨的方法，用来生成可以迷惑 CNN 的”对抗图案”。用图案挡住人体的某个部分，监控探头就无法检测到这个人的存在。

图 | 使用”对抗图案”让识别器无法识别（来源：Simen Thys/KU Leuven）

实验中，被 Toon Goedemé 和他的团队”迷惑”的摄像头，使用著名的 YOLOv2 卷积神经网络。YOLOv2 属于实时对象识别模型，它的结构是由 9 个不同尺寸的卷积层连接而成。当一张图片从输入层进入 YOLOv2 后，在输出层会得到一系列的向量。向量里记录的是以原始图片上各个位置为中心，5 种不同尺寸的检测框中存在探测目标的概率，他们把这些概率中的最大值计作 L_obj。

图 | YOLOv2 工作流程示意图。中间上图表示不同尺寸和位置的检测框，中间下图表示按照概率划分出可能存在目标的区域。（来源：Simen Thys/KU Leuven）

要想生成可以迷惑 YOLOv2 的”对抗图案”，首先需要有一个可以准确识别人物的 YOLOv2 模型，并且随机生成一张初始的”对抗图案”。然后，使用 YOLOv2 模型将每张训练图片中的人体都框选出来。再用现有的”对抗图案”覆盖住已识别的一部分人体。最后把覆盖后的训练图片送回到模型中再次识别，并计算相应的优化目标值 L。然后使用反向传播法 (backpropagation) 和 Adam 算法，相应调整”对抗图案”上的像素数值。不断重复覆盖识别和调整像素值的过程，持续降低目标值 L，直至得到最优的”对抗图案”。

整个过程中，YOLOv2 模型的参数值没有任何的改变，它仅仅被用来改进”对抗图案”。

图 | ”对抗图案”的生成工艺（来源：Simen Thys/KU Leuven）

为了生成效果最佳的”对抗图案”，研究人员对比了优化目标 L 的不同计算方法。其中最小化识别率（Minimising Objectness Score, OBJ）方法取得了最满意的效果。在 OBJ 方法下，L 被定义为 L_obj，L_nps 和 L_tv 的加权平均值。其中，L_obj 是检测框中存在探测目标的最大概率，L_nps 表示”对抗图案”的打印难度，L_tv 衡量的是它像素点间的变化程度（为了使图片看起来柔和）。

图 | 优化目标 L 的不同计算方法比较，可见 OBJ 方法生成的”对抗图案”使模型查全率（Recall）和查准率 (Precision) 都下降最快。（来源：Simen Thys/KU Leuven）

在得到最佳的”对抗图案”之后，研究团队把它打印了出来。然后特意制作了一段演示视频，展示其在现实中”迷惑”YOLOv2 模型的能力。

图 | ”对抗图案”演示视频截图（来源：Simen Thys/KU Leuven）

不可否认，卷积神经网络（CNN）作为近几年人工智能（AI）技术发展的主流和前沿，许多应用已经开始融入普通人的生活。然而，它所存在的局限性也一定不能被否认和忽视。恰恰因为这些”漏洞”的存在，人们将更加努力地探索和发展这项新技术。未来，越来越多的 CNN 模型将会被创造或者改造，并终将为人类带来更多的便利和价值。