目前,在认知学领域一个有争议的理论认为,感知、运动控制、记忆等大脑功能,都依赖于大脑对现有经验和未来期望的比较,即预测编码理论。而该理论启发了 AI 领域,正在帮助他们建立出更智能的模型。
一些神经科学家认同大脑工作的预测编码理论,在这个理论中,“思维”实际上是一种“受控制的幻想”。该理论认为,大脑更重视对现实的预期,而不是感觉器官传入的实际信息。
上月,DeepMind 公司推出一种新型软件,可以根据包含几个物体的单幅照片,在没有人类干预的情况下,推测出从另一个视角看这些物体是什么样子。如果再多给几张图片,那么这个软件可以使用生成查询网络(Generative Query Network,GQN)生成一个简单的模型。
神经科学家也对生成查询网络产生了兴趣,尤其是对其训练算法。项目负责人阿里·伊斯拉米(Ali Eslami)表示,根据输入图片,生成查询网络对于图中物体做出推断——位置,阴影,哪些部位可见而哪些不可见——并利用预测和输入图片之间的差异来提高精确度。
某些神经科学家一直以来认为,大脑的工作方式很像生成查询网络——实际上,DeepMind 公司正是受到这种理论的启发,才构建了生成查询网络技术。根据这种“预测编码”理论,在认知过程的每个层次,大脑产生模型或者说“信念”,也就是对下层传入的信息形成一个预期。这种信念会转化为对特定环境下最可能有什么体验的预测。大脑将该预测和下层感官传入的实际信息进行对比,解释预测误差。比如,我们知道桌子应该有 4 条腿。但是桌子的一部分被挡住了,我们仍有很大可能做出正确判断。
图 | 左图是一副 2D 图像。生成查询网络据此可以推断出右图中的三维模型。该算法的部分核心思想来源于神经科学的预测编码理论。(图片来源:DeepMind)
当然,如果预测误差无法得到合理解释,那么会被反馈到高层。高层将其作为有价值的信息进行处理,调整模型以降低预测误差。伦敦大学学院的神经科学家和预测编码理论的先驱卡尔·福利斯通(Karl Friston)认为,这就是大脑的工作原理。
过去几十年,神经科学家,哲学家和心理学家对预测编码理论进行了研究,并将其扩展到对整个大脑运行机理的解释上。不过只有在最近,实验技术的进步才允许科学家直接检验该理论,而过去 2 年发表的论文支持了预测编码假说。不过,该假说仍然面临很多争议——有些专家质疑一些重要成果到底是否可重复。
咖啡,奶沫和狗
“我在咖啡里放了奶沫和( )”,很多人毫不犹豫地会填上“糖”。加州大学圣迭戈分校的神经科学家马塔·库塔思(Marta Kutas)和斯蒂文·席亚德(Steven Hillyard)在 1980 年做了一系列实验,让志愿者盯着屏幕,1 次显示 1 个词,并记录他们的大脑活动。在显示这个句子的时候,科学家改动了一下,屏幕上出现的是:“我在咖啡里放了奶沫和狗。”
他们发现,看到“狗”的人,大脑电波活动比没有看到这个不合常理的词的志愿者强得多。反常活动的峰值在“狗”出现在屏幕上的约 400 毫秒后。但是这是为什么?
2005 年,库塔思团队在《Nature Neuroscience》上发表了另一篇论文。志愿者要求阅读屏幕上的这个句子:“今天风和日丽,因此孩子出门去放( )。”这里最符合常理的是“风筝”。英语中,“风筝”搭配的不定冠词是“a”。然而,当屏幕上展示的是“an”而不是“a”的时候,反常神经活动再次出现。不定冠词不是名词,并不指向任何真实物体,因此反常的神经活动,只能解释为:“an”不符合大脑的预期。
这个实验看上去是预测编码理论的有力证明。然而,今年 4 月,一篇发表在 eLife 上的论文表示,多个实验室均未能重复这个实验。不过,这个实验结果能被重复出来,只是需要关注一些原作者在最初论文中没有写出的操作细节。
在预测编码理论的发展中,这种波折不是第一次。库塔思博士的实验结果也不止有预测编码一种解释,而且该实验结果也不是对预测编码理论的决定性证明,因为它并没有解释大脑神经活动的内在机理。为了提高预测编码理论的可信度,支持者决定做更多实验,涉及人类大脑的更多思维活动。
大脑的贝叶斯推断和有效计算
20 世纪的大多数时候,神经科学家认为,大脑的功能仅仅是接收感官传输的信息,进行处理,然后做出反应,大脑的任何活动都来自于真实物理世界的刺激,比如一些神经细胞处理物体的边缘,另外一些处理物体的指向,色彩和阴影。他们并不认为大脑在时时刻刻做出预测。
但是实验证明,大脑思维过程没有这么简单。比如,在没有任何外界物理刺激的时候,大脑神经元仍然在很长一段时间内维持活跃。此外,大脑的前馈和反馈回路传输的信息量之大,很难用简单的“刺激-反应”模型来解释。
科学家随后提出“贝叶斯大脑”的理论,该理论的基础框架可以追溯到 1860 年。贝叶斯大脑理论认为,大脑根据输入信息和模型,对于世界作出概率推断,并计算可能性最大的情况。因此,大脑不是在被动等待外界输入信息,而是在主动地构建关于这个世界的假设,并用假设来解释世界。因此,有些专家认为,人类的思考是一种“受控的幻想”。
根据贝叶斯大脑理论,人类视觉的工作原理可以如下解释。假定屏幕上有 2 个快速交替闪动的点,看上去像是同 1 个点前后移动。大脑下意识地将这 2 个点看成 1 个点。对物体运动规律的解释属于高层知识,但是这种知识影响了我们对世界的认知。大脑用推测来补充缺失的信息——在这个例子中,缺失的是运动信息(因为人类认为它是 1 个运动物体)——然后生成对世界的认知,尽管可能不太准确。
图 | 左图和右图中,阴影下的棋盘看上去灰度不一。但是他们的灰度实际上相等。这种现象的原因是:大脑用阴影区域的近邻区域的颜色来推断阴影区域的颜色,因此导致了认知差异。(图源:Edward H. Adelson/Adrian Pingstone)
尽管贝叶斯理论听上去有道理,但是科学家始终没有搞清神经回路尺度上,大脑是如何进行模型构建和推断的。爱丁堡大学思维哲学教授马克·斯普瓦克(Mark Sprevak)表示,缺乏神经生物学层面的运作机理是贝叶斯大脑理论的最大问题。
为了解释大脑如何进行贝叶斯推断,科学家提出了预测编码理论。该理论受到了通信编码技术的启发:由于图像包含大量冗余,因此对每幅图像的每个像素进行编码来压缩图像是效率很低的做法。更好的做法是:对两幅相邻图像之间的差异进行编码。
1982 年,科学家发现人类大脑的视觉部分竟然也按照类似的方式进行运作。后来发现,大脑的奖励系统工作原理也是如此:多巴胺神经元对期望回报和真实回报的差异进行编码,而预测误差帮助动物更新对未来的期望,并做出决策。
大多数科学家此时仍然认为,预测编码不过是大脑某些特定区域的工作原理。不过功能性核磁共振成像技术的发展提供了新的证据。
无处不在的预测机制
预测编码理论能解释很多实验现象,这使其在认知领域产生巨大的影响。爱丁堡大学逻辑学教授,预测编码理论专家安迪·克拉克(Andy Clark)就持有此观点。
该理论对大脑的感知和运动控制行为给出了统一解释。大脑用不同的方式,在这两种思维过程中实现预测误差最小化。在感知过程中,思维模型被调整;在运动控制中,外部世界被调整。比如,你想把手中的水杯放到桌上,你的大脑预期位置是桌面,而水杯的真实位置和预期位置存在偏差。大脑分析这种偏差,并向运动系统给出减小偏差的指令。
对感知和运动控制进行的实验,提供了对预测编码理论最有利的支持。上个月《Journal of Neuroscience》发布的一篇论文中,志愿者阅读屏幕上的词“kick”,同时耳边播放着严重扭曲的“pick”这个词的录音。很多人把“pick”听成了“kick”。同时,功能核磁共振也发现,两个单词只有首字母不同,而大脑对于首字母的误差反应很强烈。如果大脑仅仅对实际经验做出被动应答,那么大脑的最强反应应该是对应于“ick”,因为这 3 个字母同时出现在屏幕和耳机中。
克拉克表示,更多的实验证明,大脑的其他区域的活动规律也服从预测编码理论——预测编码是大脑运作的核心。
福利斯通和其他专家表示,其他高等大脑活动,如注意和决策等,也服从预测编码理论。近期的研究工作证明,人类记忆和目标导向的行为也符合预测编码理论的预期。一些科学家甚至认为,情绪也是按照预测编码理论的预期来运作的:当大脑对诸如体温、心率或血压等人体内部信号的预测和实际不符时,人类就会产生情绪,以最小化这种预测误差。比如,如果大脑发现这些指标都在上升,那么大脑就会产生愤怒的情绪。也许自私的心理也是如此产生的。
图 | 卡尔·福利斯通,伦敦大学学院的神经科学家,几十年来致力于发展预测编码理论。他认为该理论不仅可以解释感知等低层次神经活动,还可以解释高级神经活动。
目前,大多数工作聚焦于预测编码如何解释人格和心理发展异常。如果大脑是一台统计推测机器,那么它有可能做出一些和统计员类似的错误,即对于预测误差给予太多或者太少的关注。
比如自闭症,可能是因为患者无法忽略与感觉器官相连的低级神经活动的预测误差。因此,自闭症患者总是要求可重复和可预测的环境,且对特定的幻觉非常敏感。而精神分裂症刚好相反:大脑过分关注自己做出的预测,而无视那些与预测背离的感官信息。当然,专家承认,自闭症和精神分裂症的机理远远不止这么简单。
不过,即使如此,耶鲁大学医学院临床心理学家菲利普·科勒特(Philip Corlett)认为,这也足以说明人类的精神活动有多么容易变化。科勒特的实验室中,志愿者接纳新刺激,从而形成了新的信念。科学家通过实验已经发现,新的信念可以被教会,且会随着你的三观改变而改变。
但是,预测编码理论尚未成为学术界的共识。
深入探寻机制
实验结果通常能提供符合预测编码理论的结果,但是预测编码通常不是解释实验结果的最佳理论。比如,在认知科学领域,预测编码得到广泛接受。但是在系统神经科学领域,接受度要低得多。
图 | 乔治·凯勒(Georg Keller),弗雷德里希·米切尔研究所生物医学方向的神经科学家,致力于预测编码理论的研究。(图源:Roland T?nnler)
去年在《Neuron》上发表的一篇论文中,凯勒和同事观察了老鼠视觉系统的神经活动随着时间推移的变化情况。他们在训练老鼠玩游戏的时候,本来定义:按左边按钮后,屏幕上物体往右移动。但是有人后来把程序改成按左边按钮,屏幕上物体往左移动。这时,科学家发现,老鼠的大脑电波信号模式逐渐发生改变,且大脑做出了“屏幕上物体向左移动”的预测。
显然,如果大脑只是对外界刺激做出被动反应,那么当游戏规则改变之后,大脑电波信号模式应该立即发生改变。而缓慢改变的事实充分证明,大脑的运作机理符合预测编码理论的预测。
克拉克表示,这个实验提供了较之之前实验更强的说服力。
此外,对大脑人脸识别功能的研究也发现了类似的现象。之前的工作发现,大脑人脸识别的低层活动主要对于人脸的细节作出反应,而在高层,对信息的处理更加抽象,主要负责辨别物体的类型,而不是位置。在欧洲神经研究所卡斯帕·斯佩德尼克(Caspar Schwiedrzik)为第一作者的一篇论文中,科学家训练猴子,向其展示 2 张人脸图片,其中第 1 张图片对于第 2 张图片高度类似。然后,科学家打乱这个预期——第 2 张图要么是角度不同,要么就是另外一个人的。大脑活动显示,预测误差是关于人脸的类别,而不是关于人脸的朝向的。这说明,预测误差产生于人类的高层神经系统,而低层系统则将输入信号和高层神经系统传来的预测进行比较。
马克斯·普朗克经验美学研究所(Max Planck Institute for Empirical Aesthetics)的露西亚·美路尼(Lucia Melloni)也表示,其团队在人类的大脑活动数据中,也发现了符合预测编码理论的现象。
发现更多的证据
值得强调的是,不是所有专家都认可预测编码理论。一些科学家承认该理论能解释特定的大脑功能,但是不是全部。有些专家更保守。纽约大学心理学教授戴维·黑格(David Heeger)认为,必须严格区分“预测编码”和“预测处理”,前者是让信息传输更有效,而后者是做出决策。此外,他认为,其他贝叶斯模型能更好地解释某些大脑活动。
当然,福利斯顿等专家认为,预测编码的研究可以为机器学习提供启发。目前,大多数人工智能研究并未包括预测编码,而加入预测编码的深度学习算法可以提高其智能程度。
DeepMind 的生成查询网络在这方面迈出了第一步。去年,苏塞克斯大学的专家使用包含预测编码的虚拟现实和人工智能技术创造了“幻想机器”,可以产生之前只有嗑药才能产生的幻象。
反过来,机器学习的进步也可以为神经科学研究提供新思路——一个更加智慧的机器是如何工作的?大脑的工作机制与此类似吗?
科学家接下来的工作是,进一步搞清预测编码机制的细节,并设计更有说服力的实验,来说明人类的高级神经活动也服从预测编码机制。
格拉斯额大学神经生理学家拉丝·马克里(Lars Muckli)甚至认为,预测编码理论对于神经科学的重要性堪比进化论对生物学的重要性。当然,还需要更多的研究来进一步完善这一理论。