艾伦研究所的AI“Aristo”，通过八年级科学测验

五年前，西雅图亿万富翁 Paul Allen（现已故）提出一项人工智能计划，试图使 AI 通过八年级科学测验；如今，这项壮举已经宣布完成。

艾伦人工智能研究所（AI2）在 9 月 4 日宣布，其 Aristo 软件应对八年级多选题考试正确率在 90% 以上，对于高年级考试正确率在 80% 以上。

该考试基于 New York Regents 的能力测试，排除了解释图片或图表的问题，因为 Aristo 不具备视觉识别技能。此外，Aristo 无法应对它没有训练过的科学领域。

尽管如此，这次实验还是说明近 5 年来人工智能获得的巨大进展，当年艾伦 AI 科学挑战的参赛程序效果都不理想。

（来源：AI2）

“它在标准化测试问题上取得了显著突破，这需要一定程度的自然语言理解、推理和常识，”AI2 首席执行官 Oren Etzioni 表示，“即使在一年前，也没有人会预料到机器能解决 8 年级和 12 年级的科学问题！”

这项工作建立在一系列语言解释、问题回答能力，它使用了 AI2 的 ELMo 程序和西雅图 Google 研究机构的 BERT 程序。Aristo 有八种类型的问题解决 agent：从数据库查找到相关概念检查（称为元组），到定性推理。

多种方案会为首选的多选题答案评分，而 Aristo 会对评分加权来确定最终答案。该程序通过多次训练和校准来优化结果。

例如，有一个问题是：“当铁块熔化时，铁块中的原子如何受到影响？A）原子质量增加；（B）原子热量减少；（C）原子移动加快；D）原子体积增加。”

Aristo 先确定相关知识，粒子热量增加会导致粒子移动加快，将问题中的“熔化”与“热量”联系起来，从而确定粒子移动加快，并将C选项作为正确答案。

为了解决八年级的测验，Aristo 结合不同的方案进行优化，正确率从 2016 年的大约 60％提高到现在的 91.6％。在 12 年级测验中，该程序正确率为 83.5％。

图 | 该图表显示了Aristo多年间在纽约摄政学院八年级科学考试（只有多项选择，无图表问题）的得分情况。多年来，程序分析问题的方法越来越复杂，这带来了性能的提升。（来源：AI2）

在一份关于该项目的研究论文中，Etzioni 和其他 AI2 研究人员（包括项目 Aristo的高级经理 Peter Clark）表示，“要实现 Paul Allen 关于 Digital Aristo 的设想，要创造出一个对科学有更深理解的机器，我们只是走出了第一步。”

研究人员的目标是让 Aristo 能解决图表问题和论文问题。他们希望该技术最终突破现有水平，对于八年级学生、甚至成年人难以回答的问题，Aristo 也能用自然语言做出回答。

Aristo 有可能成为一个比亚马逊 Alexa、微软 Cortana 和苹果 Siri 更加智能的数字助理。研究人员表示，Aristo 的长期目标不仅仅是通过科学测试，而是创建一个对科学有更深入理解的系统，它有许多潜在的应用，特别体现在这样三个领域：第一个是教育和个性化教育领域，Aristo 可以辅导孩子理解科学；第二是帮助科学家，提供有关科学概念和先前工作的信息；最后，从长远来看，Aristo 可能有助于科学发现本身，在不同领域做出关联，比如医学或工程学。当然，Aristo 还有很长的路要走。