艾伦研究所的AI“Aristo”,通过八年级科学测验

五年前,西雅图亿万富翁 Paul Allen(现已故)提出一项人工智能计划,试图使 AI 通过八年级科学测验;如今,这项壮举已经宣布完成。

艾伦人工智能研究所(AI2)在 9 月 4 日宣布,其 Aristo 软件应对八年级多选题考试正确率在 90% 以上,对于高年级考试正确率在 80% 以上。

该考试基于 New York Regents 的能力测试,排除了解释图片或图表的问题,因为 Aristo 不具备视觉识别技能。此外,Aristo 无法应对它没有训练过的科学领域。

尽管如此,这次实验还是说明近 5 年来人工智能获得的巨大进展,当年艾伦 AI 科学挑战的参赛程序效果都不理想。

(来源:AI2)

“它在标准化测试问题上取得了显著突破,这需要一定程度的自然语言理解、推理和常识,”AI2 首席执行官 Oren Etzioni 表示,“即使在一年前,也没有人会预料到机器能解决 8 年级和 12 年级的科学问题!”

这项工作建立在一系列语言解释、问题回答能力,它使用了 AI2 的 ELMo 程序和西雅图 Google 研究机构的 BERT 程序。Aristo 有八种类型的问题解决 agent:从数据库查找到相关概念检查(称为元组),到定性推理。

多种方案会为首选的多选题答案评分,而 Aristo 会对评分加权来确定最终答案。该程序通过多次训练和校准来优化结果。

例如,有一个问题是:“当铁块熔化时,铁块中的原子如何受到影响?A)原子质量增加;(B)原子热量减少;(C)原子移动加快;D)原子体积增加。”

Aristo 先确定相关知识,粒子热量增加会导致粒子移动加快,将问题中的“熔化”与“热量”联系起来,从而确定粒子移动加快,并将C选项作为正确答案。

为了解决八年级的测验,Aristo 结合不同的方案进行优化,正确率从 2016 年的大约 60% 提高到现在的 91.6%。在 12 年级测验中,该程序正确率为 83.5%。

图 | 该图表显示了Aristo多年间在纽约摄政学院八年级科学考试(只有多项选择,无图表问题)的得分情况。多年来,程序分析问题的方法越来越复杂,这带来了性能的提升。 (来源:AI2)

在一份关于该项目的研究论文中,Etzioni 和其他 AI2 研究人员(包括项目 Aristo的高级经理 Peter Clark)表示,“要实现 Paul Allen 关于 Digital Aristo 的设想,要创造出一个对科学有更深理解的机器,我们只是走出了第一步。”

研究人员的目标是让 Aristo 能解决图表问题和论文问题。他们希望该技术最终突破现有水平,对于八年级学生、甚至成年人难以回答的问题,Aristo 也能用自然语言做出回答。

Aristo 有可能成为一个比亚马逊 Alexa、微软 Cortana 和苹果 Siri 更加智能的数字助理。研究人员表示,Aristo 的长期目标不仅仅是通过科学测试,而是创建一个对科学有更深入理解的系统,它有许多潜在的应用,特别体现在这样三个领域:第一个是教育和个性化教育领域,Aristo 可以辅导孩子理解科学;第二是帮助科学家,提供有关科学概念和先前工作的信息;最后,从长远来看,Aristo 可能有助于科学发现本身,在不同领域做出关联,比如医学或工程学。当然,Aristo 还有很长的路要走。