科研人员多维度测试GPT-3发现：它并不是一名“好学生”

近日，国外知名论文预印本网站 arXiv 发表了一篇名为《测量大规模多任务下的语言理解》(Measuring Massive Multitask Language Understanding)的计算机论文，第一作者，加州大学伯克利分校博士生 Dan Hendrycks 等使用一套新的方法对包括 GPT-3 在内的多个模型进行了系统的语言理解测试。

遗憾的是，测试结果显示，纵然 GPT-3 拥有史无前例的 1750 亿个机器学习参数，前后耗资 1200 万美元，但它依旧在关键的节点缺乏实质性的改变。

57 项任务多维度测试

论文中的测试方法包括 57 项任务，内容涵盖了基础数学、美国历史、计算机科学、法律等等多个维度。

模型必须对世界有广泛的了解和解决问题的能力才能在测试中表现良好。这个新颖测试集的目标是弥合模型在训练中输入的真正知识与通过自然语言处理所得到纸面知识之间的鸿沟。

常规的语言模型通常从 Wikipedia、Reddit，电子书和其他 Web 来源的大量数据集中“学习”。近期出现的一些模型试图通过更大量的训练数据来点亮自身的语言技能，但到目前为止，几乎没有证据表明这与模型的常识推理能力之间存在正相关性。

研究人员声称他们的测试是不同的，因为它的标准要求 AI 必须更像一名真正的人类。

为此，他们从研究生和本科生中收集了 15908 个问题，包括本科的课程、考试、牛津大学出版社出版物、研究生考试、美国医学许可考试、其他专业考试等等。任务的难度从初级到高级不等，他们认为这样的抽样足以识别模型的盲点。

图 | 研究人员测试集中的问题示例

研究人员写道，“我们衡量了现实世界中对文本的理解程度”，并指出每个主题至少包含 100 个测试用例。“由于模型已经在互联网上进行了预训练，因此我们也可以测试模型从大型语料库中提取有用知识的能力。”

除了 GPT-3，研究人员也对 Google 的 T5 和艾伦人工智能研究所的 UnifiedQA 问答模型进行了基准测试。

结果表明，直到最近几个月才出现了真正有意义的进步，包含 130 亿个参数的模型可实现 25％的精度，而 1750 亿个参数的 GPT-3 可达到 43.9％的精度。但是，即便如此，GPT-3 在任何单个学科上都算不上是一名“好学生”。

它在测试集上表现是不平衡的，其最佳科目（美国外交政策）的准确性接近 70％，而其他几个科目（如大学化学）的表现则接近“随机”。

研究人员解释说：“总体而言，GPT-3 在对人类建模的方面表现很差，并在法律和道德情景任务上表现不佳，执行数学计算也很困难。许多其他理工科问题的回答也非常具有‘死记硬背’的特点…… 我们推测，可能的原因是相比成体系的知识，GPT-3 更容易习得“一问一答”式的知识。”

此外，研究结果表明，现存的模型仍具备改进空间，但尚不清楚以目前的技术水平能否达成。

当模型大小再增加 10 倍，数据增加大约 5 倍，结果可能会不一样。但客观上可能难以做到，即便你有充足的资金，用于训练的数据却可能成为关键瓶颈。

为 AI 设定“三观”

值得注意的是，论文第一作者此前还发表了一篇名为《让 AI 与人类普遍价值观保持一致》的预印本论文。该论文着重阐述了他们所构建的伦理数据集

该数据集涵盖了正义、福祉、责任、美德、常识和道德观念等一系列人类社会的价值观念，借此，模型可以实现对各种文本场景的道德判断。

这是一种必须在某种程度上实现物理世界与纸面知识的连接才能具备的能力，它可以帮助科研人员提前过滤掉不必要的“脏数据”，以便最终实现规范化的深度学习。

随着技术的进步，AI 的能力越来越强，应用范围也随之扩大，其对民众日常生活的 “入侵” 也呈现出明显的加速趋势。