NLP模型太强，基准测试跟不上了？脸书等联推“新考卷”

在自然语言处理上（NLP），基于深度学习的方法近年来在语言处理方面取得了快速发展。但是，在无法获得大量被标记的训练数据时，当前的系统在处理任务时仍然会受到限制。

近日，Facebook 在其人工智能博客上更新了一篇文章，回顾了Facebook的人工智能在 NLP 领域取得的突破，尤其是在利用半监督和自监督学习技术、利用未标记的数据来提高性能上，其中一些成果甚至超越了纯粹的监督系统。

而对于未来的自然语言处理的趋势，FaceBook 认为，自然语言处理模型在一些任务上已经有了超越人类的表现，但现实应用中却仍有局限，是时候推出一个新的衡量基准来评估自然语言处理出现的一些新进展。

在这方面，FaceBook正在和纽约大学、DeepMind和华盛顿大学合作构建 SuperGLUE，这将是一个难度更高的测试基准。

有意思的是，FaceBook 特别在博文开头中提到，自然语言理解（NLU）和语言翻译是一系列重要应用的关键，包括大规模识别和删除有害内容，以及连接世界各地不同语言的人们。以下为文章全文（经过基于愿意的删改）：

在第四届机器翻译大会（WMT19）的竞赛中，Facebook AI使用了一种新型的半监督训练，在几种语言翻译中获得了第一名。Facebook 还引入了一种新的自我监督的预训练方法——RoBERTa，它在数个语言理解任务上超越了所有现有的NLU（自然语言理解）系统。而在某些情况下，这些系统甚至优于人类基线，包括英德翻译和五个 NLU 基准。

在整个自然语言处理领域，NLU 系统的发展速度如此之快，以至于它在许多现有基准上都达到了极限。为了继续推进这项技术，Facebook与纽约大学（NYU）、DeepMind Technologies 和华盛顿大学（UW）合作，开发了全新的基准、排行榜和 PyTorch 工具包，希望进一步推动相关研究发展。

FaceBook 认为，这些新工具将帮助创造更强大的内容理解系统，而且可以翻译数百种语言，理解诸如歧义、共同引用和常识推理等复杂的内容，减少当今大多数系统对所需的大量标记培训数据的依赖。

翻译精确度方面的突破

对于神经机器翻译（NMT）模型，监督训练通常需要大量有参考译文的句子。然而，大量高质量的双语数据并不普遍可用，这就要求研究人员使用没有参考翻译的单语数据。反向翻译（Back translation，一种半监督学习技术）部分地克服了这个问题。Facebook 最近提交给 WMT 的作品是建立在研究人员之前的大规模反向翻译工作的基础上的，这也帮助 Facebook 在去年的比赛中获得了第一名。

今年，Facebook 引入了一种新的方法，通过生成许多候选翻译，并选择最能平衡三种不同模型分数（正向、反向和流畅性）的翻译，进一步改进其反向翻译系统。正向模型评分考察候选翻译在多大程度上捕捉了原句的意思。相反，反向评分着眼于如何从候选翻译中重建原句。最后的分数衡量的是翻译的流利程度，并通过观察大量单语数据以自我监督的方式进行训练。然后通过平衡这三个分数，显著地改进翻译。

因此，经过数年的努力，Facebook 将系统英-德翻译任务的性能提高了 4.5 BLEU（衡量生成的翻译与专业参考之间重叠程度的指标），这是一个很大的改进。根据人工评价，Facebook 的模型在英-德、德-英、英-俄，和俄-英的四个翻译任务中排名第一。根据 WMT 评委的评估，Facebook 的英-德翻译甚至比人类翻译要好。

（来源：Facebook）

其工作原理是：首先，一个正向模型将一个句子（比如从德语翻译成英语）翻译成英语，生成一组英语翻译。然后，一个反向模型将这些英语语句翻译成德语，让系统评估每一个英语翻译与原德语句子的一致性。最后，语言模型将判断英语翻译的流利程度。

Facebook 还将训练规模扩大到了更大的数据集，包括大约 100 亿个英语和德语单词。与去年相比，Facebook 在半监督训练中使用了两倍多的单语数据，进一步提高了翻译的准确性。

自监督预训练方法的改进

Facebook 最近对自然语言处理（NLP）的最大突破——BERT 也进行了优化和改进。BERT 是谷歌在 2018 年发布的，它是革命性的技术，因为它展示了自监督训练技术的潜力，它具有匹配或超过传统的标签密集型监督方法的性能。例如，利用 BERT 和相关方法推动对话型 AI 的前沿研究，改进内容理解系统，提高低资源和无监督的翻译质量。

由于有了谷歌开源的 BERT，Facebook 才能够进行一个复制研究，并确定了进一步提高其有效性的更改设计。Facebook 引入了稳健优化的 BERT 预训练方法，即RoBERTa，实现了新的最先进的进展。

RoBERTa 修改了 BERT 中的关键超参数，包括删除 BERT 下一个句子的预训练目标，以及使用更大的批量和学习率进行训练。与 BERT 相比，RoBERTa 训练的时间要长得多。这种方法在广泛使用的 NLP 基准测试、一般语言理解评估（GLUE）和考试阅读理解（RACE）中产生了最先进的成果。

图 | RoBERTa 在不同任务中的结果以及取得的改进。（来源：Facebook）

RoBERTa 以 88.5 分的平均分获得了 GLUE 排行榜的第一名，与之前的第一名平均分 88.4 分的 XLNet-Large 性能持平。RoBERTa 还在几个语言理解基准测试上取得了进步，包括 MNLI、QNLI、RTE、STS-B 和 RACE 任务。

这一成就是 Facebook 持续致力于提高自监督系统的性能和潜力的一部分，这些系统较少地依赖于数据标记。

NLP 研究的下一个前沿

作为衡量研究进展的行业标准，GLUE 的目标是覆盖广泛的 NLP 任务，唯一的方法就是构建足够通用的工具来帮助解决大多数新的语言理解问题。

在发布后的一年内，一些 NLP 模型（包括 RoBERTa）已经在 GLUE 基准上超过了人类的基础能力。目前的模型已经提出了一种非常有效的方法，它将对大量文本数据集的语言模型预训练与简单的多任务和迁移学习技术结合了起来。

这种快速的发展是大型人工智能社区互相协作的结果。上面提到的 NLP 竞赛、基准测试和代码，使得模型复制、改进和在最新成果中取得了更快的进展。随着 GPT 和 BERT 的引入，GLUE 上的模型性能大幅提升，现在最近的模型已经超越了人类的能力，如下图所示:

图 | 最近的自然语言处理模型能力已经超越人类（来源：Facebook）

虽然目前的模型可以在特定的 GLUE 任务上超越人类，但是它们还不能很好地解决人类的一些任务。为了给 NLP 的研究设定一个新的更高的标准，Facebook 人工智能团队与纽约大学、DeepMind 和华盛顿大学合作构建了 SuperGLUE，这是一个更加困难的基准。他们正在推出 SuperGLUE，让研究人员能够继续推进这项技术的发展。

新的基准和最初的基准都是由纽约大学牵头，通过相同的合作伙伴合作创建的。SuperGLUE 追随 GLUE 的脚步，提供一个单数字度量，总结了各种 NLP 任务的进展。除了新的测试基准，Facebook 还发布了一个排行榜和一个 PyTorch 工具包，用于引导研究。

SuperGLUE 提供了一些新方法来测试一系列较难的 NLP 任务的创造性方法，这些任务主要关注机器学习的一些核心领域的创新，包括高效采样、转移、多任务和自监督学习。为了挑战研究人员，Facebook 选择了一些任务，它们具有不同的格式，有更多微妙的问题，但还没有使用最先进的方法来解决，并且很容易被人解决。为了测试这些任务，Facebook 为许多候选任务运行基于BERT的基线，并为人类基线收集数据。

新的基准测试包括八个不同的具有挑战性的任务，包括选择合理的替代方案（COPA），这是一个因果推理任务，在这个任务中，系统被赋予前提句子，并且必须从两个可能的选择中确定这个前提的因果关系。值得注意的是，人类对 COPA 的准确率达到了 100%，而 BERT 的准确率只有 74%，这表明 BERT 有很大的进步空间。

其他独特的前沿组件还包括用于测量这些模型中偏差的诊断工具。具体来说，例如 Winogender，它的设计目的是测试在自动指代消解系统（automated co-reference resolution systems）中是否存在性别偏见。此外，SuperGLUE 还包含一个名为“BoolQ”的问答（QA）任务，它的每个示例都包含一个简短的段落和一个关于该段落的“是”或“否”问题。这是自然问题基准测试的一个很好的工具。

与 GLUE 类似，新的基准测试还包括一个围绕语言理解任务构建的公共排行榜，它利用现有数据，并附带一个单数字性能指标和一个分析工具包。

最近 Facebook 用新的基准测试了 RoBERTa，它的表现超过了所有现有的 NLU 系统，甚至超过了人类在多语言阅读理解（MultiRC）任务上的基线。尽管如此，在许多 SuperGLUE 任务上，RoBERTa 和人类基线之间仍然有很大的差距，这说明了当今最先进的 NLU 系统的一些局限性。

为了进一步挑战人工智能系统可以帮助人类做什么，Facebook 还引入了第一个长格式的问题回答数据集和基准测试，这需要机器提供长而复杂的答案。这是现有算法以前从未遇到过的挑战。

目前的问题回答系统主要集中在一些琐碎的问题上，比如水母是否有大脑的问题。而这项新挑战更进一步，它要求机器对一些开放性的问题进行深入的回答，比如“没有大脑，水母是如何工作的?”，现有算法与人类的表现相去甚远，而这一新挑战将推动人工智能综合来自不同来源的信息，为开放式问题提供复杂的答案……上述的所有工作都是更大进步的一部分，这一进步正在迅速推进语言处理的技术水平。

通过发布衡量技术进步的新标准，引入半监督和自监督学习的新方法，以及在越来越大的数据范围内进行训练，Facebook 希望能够激发下一代的创新。