您当前所在的位置：>> 网站首页

Gary Marcus：AI 可以从人类思维中学习的11个启示

来源：AI科技评论作者：Gary Marcus、Ernest Davis编译：陈彩娴1969 年图灵奖得主、MIT 人工智能实验室创始人马文·明斯基（Marvin Minsky）在其1986年著作《心智社会》（The Society of Mind）一书中曾探讨人类智慧的来源。他认为，“人类的智慧源于人类社会的多样性，而不是某个单一的、完美的准则。”毫无疑问，近几年人工智能的技术有了极大的飞跃，不仅打败了围棋与扑克比赛的世界冠军，还在机器翻译、物体分类和语音识别等领域取得了重大进步。然而，其实大多数 AI 系统的关注点都十分狭窄。比如，围棋冠军选手“AlphaGo”虽然在与人类比赛中胜出，对围棋本身却丝毫不了解：它不知道围棋游戏进行的过程是由选手在棋板上落下石头棋子，甚至不知道“石头”、“板”为何物。如果你将原先给它看的正方形网格板换成长方形板，你还要重新对它进行训练。换句话说，AlphaGo的“智能”是非常有限的。要想发展能够理解文本或赋能通用家居机器人的人工智能技术，我们还要付出更多努力。纽约大学的两位教授 Gary Marcus 与 Ernest Davis 认为，AI 的下一个发展机遇是从人类思维“取经”，因为人类在理解与灵活思考上的表现仍远远优于机器。基于对认知科学（心理学、语言学与哲学）的思考，两位作者提出了 AI 发展的 11 个建议：

1

AI理论切忌“立竿见影”

从行为主义心理学（behaviorism）、贝叶斯推理到深度学习，科研人员常常是提出一些简单的理论来希望解释所有人类智慧行为。

Firestone 与 Scholl 在 2016 年曾提出一个观点：“没有哪一种方法可以概括人类大脑的思考方式，因为‘思考’并不是一个特定的事物。相反，大脑的思维由不同部分组成，每一部分的运行方式又不相同：人类大脑在观察到一种颜色时的思考方式与计划假期的思考方式不同，计划假期的思考方式又与理解句子、移动肢体、记忆事实或感受情感不同。”人类的大脑极其复杂多样：拥有超过 150 个可以清楚辨别的大脑区域，约 860 亿个神经元，数百个（或数千个）不同类型；万亿个突触，每个突触中又有数百种不同的蛋白质。真正智能且灵活的系统很可能非常复杂，就像人脑一样。因此，任何将智能简单概括为一个原理或一个“主算法”的理论都注定会失败。

2
丰富的内在表征

认知心理学的研究侧重于内在表征，如信念、欲望与目标，经典 AI 也是如此。例如，为了描述肯尼迪总统著名的 1963 年柏林之行，人们往往会增加一些事实，如 part-of（柏林，德国），visited （肯尼迪，柏林，1963年）。这些表征聚集便形成“知识”，推理便是建立在这一基石上。在此基础上，若你所推断得到的事实是“肯尼迪拜访了德国”，那么你的推理便是不值一提的。当前，深度学习试图用许多能大约捕捉当下事件的矢量来进行粗略推理，但这根本无法直接代表命题。在深度学习中，没有能表示 visited（肯尼迪，柏林，1963年）或 part-of（柏林，德国）的具体方法；一切描述都只是粗略接近事实描述而已。深度学习目前在推理和抽象推理上停滞不前，因为它一开始就不是用于表示精确的事实知识。一旦事实模糊，正确推理就很难。GPT-3 系统就是一个很好的例子。相关系统 BERT 也无法针对诸如“如果您将两个奖杯放在一张桌子上并添加另一个，那么您有多少个？”的问题给出可靠答案。

3
抽象化与泛化

我们所知道的许多事物都是非常抽象的。例如，“ X 是 Y 的姐妹”可以描述许多不同人之间的关系：Malia 是 Sasha 的姐妹，Anne 公主是 Charles 王子的姐妹，等等。我们不仅知道哪些人是姐妹，还知道姐妹一般指的是什么，并将这些知识应用于个人。如果两个人有相同的父母，那么我们就可以推断他们的关系是兄弟姐妹。如果我们 Laura 是 Charles 和 Caroline 的女儿，并且发现 Mary 也是他们的女儿，那么我们就可以推断出 Mary 和 Laura 是姐妹。构成认知模型和常识的基础的表征由抽象关系构建而成，并以复杂的结构组合。我们几乎可以将所有事物抽象化：时刻（如“ 10:35 PM”），空间（如“北极”），特殊事件（如“林肯遇刺”），社会政治组织（如“美国国务院”），以及理论构造（如“语法”），并将这些抽象事物用于解释或故事编造，从本质看复杂的情况，以此来推理世界上的各种事物。

4
深度构造的认知体系

马文·明斯基曾提出一个观点：我们应该将人的认知看作一个“心智社会”，该社会包含数十或数百种不同的 “agent”，每一个 agent 专攻不同类型的任务。例如，喝一杯茶需要GRASPING agent、BALANCING agent、THIRST agent和其他 MOVING agents的相互作用。进化与发展心理学的许多工作都指明：大脑不只包含一种思维，而是许多种思维。讽刺的是，当前机器学习的发展趋势几乎与上述观点相反。机器学习更偏好使用内部结构较少的单一同质机制的端到端模型，比如英伟达在2016年所推出的驾驶模型。该模型没有使用感知、预测与决策等经典模块，而是使用单一的、相对统一的神经网络来学习输入（像素）和一组输出（转向和加速指令）之间的直接相关性。此类模型的拥护者认为，“联合”训练整个系统的方法有许多优势，不必分开训练单个模块。如果打造一个大的网络更容易，为什么还要费心思去构建单独的模块呢？事实上，如果“联合”训练整个系统，那么这种系统很难调试，灵活性非常差。在没有人类驾驶员的干预下，英伟达的系统通常只能良好运行几个小时，而不是数千个小时（例如 Waymo 的多模块系统）。Waymo的系统可以从A点导航到B点并进行车道变更，但英伟达的系统却只能一直走同一条车道。最优秀的AI研究员在解决复杂问题时通常会使用混合系统。比如，在围棋比赛中，若想取得胜利，就需要将深度学习、强化学习、博弈树搜索与蒙特卡洛搜索相结合。Watson 在Jeopardy！上所取得的胜利，诸如 Siri 和 Alexa 的问答机器人，以及网页搜索引擎都使用了“厨房水槽法”，整合了许多不同类型的流程。Mao等人在“The neuro-symbolic concept learner: Interpreting scenes, words, and sentences from natural supervision”中介绍了一种将深度学习和符号技术相结合的系统，该系统在视觉问题解答和图像文本检索方面产生了良好的结果。Marcus 在“The next decade in AI: four steps towards robust artificial intelligence”中也讨论了许多种不同的混合系统。

5
用于简单任务的多种工具

即使在细粒度模型中，认知体系也通常包含多个机制。就拿动词及其过去式来说：在英语和许多其他语言中，一些动词通过简单的规则（如 walk-walked，英语动词原形后面直接加 ed）变成过去时态，另一些动词通过不规则形成过去时态（如 sing-sang，bring-brought）。根据小孩在将动词变成过去时所犯的错误的数据，Gary Marcus 和 Steven Pinker 提出了一种混合模型。这种模型即使在微观情况下也有小小的结构，其中规则动词根据规则进行泛化，不规则动词的过去时则通过一个关联网络生成。

6
组合性

Humboldt 曾说过，语言的本质是“无限使用有限的方法”。在大脑与语言数据有限的情况下，我们成功创造了一种语法，使我们能够说和理解数不清的句子。在许多情况下，我们是通过较小的成分（例如单个词语或短语）来构造较大的句子。比如“水手深爱这个女孩”这一句子，我们可以将它作为一个更大句子的组成部分（玛丽亚想象，水手深爱这个女孩），这个更大的句子又可以作为一个更更大句子的组成部分（克里斯写了一篇文章，文章是关于 Maria 想象，水手深爱这个女孩），等等。这些句子都很容易为人理解。相反，神经网络领域的科学家 Geoff Hinton 一直坚持一个观点：句子的含义应该以所谓的“思想向量”（thought vectors）进行编码。但是，句子所表达的思想及句子之间的细微关系太过复杂，因此难以通过将表面上看起来相似的句子简单组合就能理解句子所要传达的意思。基于 Hinton 的观点所构建的系统可以生成符合语法规则的文本，但随着时间的推移与所生成文本的数量增加，系统会越来越无法理解生成的文本内容。

7

自上而下、自下而上的信息整合下图图 1：图片所示是字母还是数字？根据上下文，这张图片既可能是字母，也可能是数字（参见图 2）。认知心理学家经常会将信息区分为“自下而上的信息”（直接来自我们的感官）和“自上而下的知识”（即我们对世界的先验知识，如字母和数字是不同类别，单词和数字是由这些类别中提取的元素组成，等等）。当我们将落在视网膜上的光线与连贯的世界画面融合在一起时，下图所示的模棱两可的符号在不同情况下看起来是不同的。图 1：可能是数字，也可能是字母图2：根据上下文而作的解释无论我们看到什么、读到什么，我们都将其融入到一种情景认知模型中，并结合我们对整个世界的理解。

8

嵌在理论中的概念在一个经典的实验中，发展心理学家 Frank Keil 询问孩子们：“一个浣熊想要做整容手术把外表编程臭鼬，手术完成后身体里留下“超级臭”的东西，这时候，浣熊是否变成了臭鼬？”孩子们坚定地认为浣熊无论怎样都是浣熊，这大概是他们的生物学理论以及“生物的本质才是真正重要的”的观念使然。（孩子们没有将相同的理论扩展到人造品上，例如被制造成喂鸟器形状的咖啡壶。）嵌在理论中的概念对于高效学习至关重要。假设一个小孩第一次看到鬣蜥的照片。几乎是一瞬间，这个小孩不仅能够识别鬣蜥的其他照片，还能识别视频中的鬣蜥和现实生活中的鬣蜥，并轻松地将它们与袋鼠区分开。同样地，这个小孩能够从关于动物的常识中推断鬣蜥要吃东西、要呼吸、出生时体型很小、会成长、会繁殖、会死亡。没有一件事是一座孤岛。要想获得成功，通用智能需要将其所获得的事实（facts）嵌入到有助于组织这些事实的更丰富的总体理论中。

9
因果关系

Judea Pearl 曾强调，对因果关系的深刻理解是人类认知中一个普遍存在且不可缺少的部分。如果世界很简单，我们对所有事情都有全面的了解，那么我们唯一需要的因果关系就是物理学。我们可以通过模拟来确定是什么影响什么，比如，如果我施加微牛顿力，接下来会发生什么？

但是，这种详细的模拟是不现实的，因为要跟踪的粒子太多，时间太短，我们的信息也太不精确。

相反，我们经常使用近似值。我们知道事物是因果相联的，即使不知道原因。就像我们服用阿司匹林，因为我们知道这会使我们感觉好些，但我们不需要了解生物化学。因果知识无处不在，是我们大多数工作的基础。

10
追踪个体

在日常生活中，你会关注各种各样的单个物体，包括它们的属性和历史。比如，你的配偶曾经是一名记者，你的汽车后备箱上有凹痕，去年你更换了变速箱，等等。我们的经验由随着时间的流逝而永存、变化的实体组成，我们所了解的许多事物都是由这些事物的相关事物与这些事物的单独历史、特质来组织而成。

但奇怪的是，这并不是深度学习系统所固有的观点。

在大多数情况下，当前的深度学习系统专注于学习通用的、类别层面的关联，而不是有关特定个体的事实。在没有诸如数据库记录之类的概念，以及时间和变化的丰富表征时，很难追踪单个实体与所属类别的区别。

11
先天知识

有多少思维结构被建立，又有多少思维结构被学会了呢？“天性 vs 培养”（nature vs nurture）的常见对立是一种错误的二分法。生物学（更准确来说，是来自发展心理学和发展神经科学）的研究证明：先天知识与后天学习是一起进行的。

很多机器学习的研究人员希望系统从头学起。但从完全空白的状态中学习，只会使学习变得更困难。这相当于没有先天知识，只有后天学习。

最有效的解决方案其实是将“先天知识”与“后天学习”结合起来。人类很可能天生就能理解世界是由永恒不变的物体组成的，这些物体在时空的连接轨迹上航行，具有几何形状和数量的意识，还有直观的心理学基础。

同样地，AI系统不应尝试从像素与动作的关联中学习所有内容，而应在一开始就以对世界的核心了解作为开发更丰富模型的基础。

12
结论

认知科学的研究发现启发了我们对建立具备人类思维灵活性与通用性的人工智能的探索。机器不需要复制人类的思想，但对人类思想的深刻理解也许会带来 AI 技术的重大进步。

我们认为，AI 的下一步发展应从专注于执行人类知识的核心框架开始，包括时间、空间、因果关系，以及物理对象和人类及其相互作用的基础知识。这些知识应该嵌入到可以自由扩展到各种知识的架构中，并始终牢记抽象、组合和追踪个体的核心原则。

我们还需要发展强大的推理技术，以处理复杂的、不确定的、不完整的知识，并可以自上而下和自下而上地工作，并将这些推理技术与感知、操作和语言联系起来，建立丰富的世界认知模型。重点是构建一种以人类为灵感的学习系统，可以利用 AI 拥有的所有知识和认知能力，将其学到的知识整合到其先验知识中，并能够像孩子一样从各种可能的信息源中学习：学习与世界互动，与人互动，阅读，观看视频，甚至被教导等。

这是一个艰巨的任务，但是必须要做的。

原文链接：

https://cacm.acm.org/magazines/2021/1/249452-insights-for-ai-from-the-human-mind/fulltext