下一代人工智能，像人一样思考

冯杰

2024年07月03日 02:48

乔治·马瑟（George Musser）

光明日报（ 2024年06月27日 14版）

探索人工智能的梦想从来就不是创造一个能击败国际象棋大师的程序，或者搭建一个试图破坏婚姻的聊天机器人。实际上，它让我们以技术为镜来反观自身，从而更深刻地认识自我。研究者追求的不仅仅是人工智能，而是具备类人的适应性和创造力的通用人工智能（AGI）。

1、迈向通用人工智能

大语言模型（LLM）已经展现出远超研究者预期的问题解决能力。但是，它们仍不时犯下可笑的错误，并缺乏开放学习的能力：一旦完成根据书籍、博客和其他材料的训练，它们的知识库就会冻结。它们也不能通过专家设计的“机器人大学生测试”：无法完成大学教育，甚至幼儿园教育也不行。

这些系统唯一真正解决的AGI问题是语言。它们拥有所谓的“形式表达能力”：LLM能解析你提供的所有句子，即使是只言片语或俚语它也能搞明白，还能以类似维基百科的标准英语作出回复。但是，它们不具备那些能够帮助我们处理日常生活的思维能力。“我们不应该期望它们能够思考，”麻省理工学院的神经科学家南希·坎威舍说，“它们是语言处理器。”LLM能熟练地操纵文字，但除了已经掌握的文本之外，它们并没有与现实互动。

从这个意义上讲，大语言模型只是模仿了大脑的语言能力，却缺乏感知、记忆、导航、社会判断等能力。我们的大脑灰质执行的功能互相重叠，既纷繁复杂又浑然一体——它们或广泛分布在多个脑区，或局限于某个特定脑区。例如，那些大脑语言功能区中风的患者可能无法说话，但他们仍能够像以前一样做加减运算，创作交响曲，下棋，还能通过手势交流。AI的开发者正将这类功能模块引入到他们的系统之中，希望使它们更加智能。

生成式预训练变换器（GPT）的创造者OpenAI，通过插件来帮助付费用户完成数学运算、互联网搜索和其他查询任务。每个插件都有一个专用的，接受过预训练的专业知识库可供调用。其实，GPT的核心语言系统在某种意义上也是模块化的。OpenAI对GPT的架构严格保密，但众多AI研究者推测，GPT由多达16个独立的神经网络或“专家”组成，这些“专家”通过汇集它们的输出来回答用户的问询，但是汇集的工作机制尚不明确。2023年12月，总部位于法国巴黎的AI公司Mistral也发布了一款基于“混合专家”架构（MoE）的开源模型，引发了巨大轰动。这种形式简单的模块化架构，最主要优势就是计算效率：训练和运行16个较小的（神经）网络比运行一个大型（神经）网络更容易。“这个‘MoE架构’实现了两全其美。”英国爱丁堡大学的AI研究员埃多阿多·蓬蒂说，“我们能得到一个拥有大量参数的系统，同时保持了小模型的效率。”

但是，模块化也带来了问题。没有人确切知道大脑的各个区域如何协同工作以创造出一个和谐的自我，更不用说机器如何去模仿这一点了。“语言系统是如何将信息传递给逻辑推理系统或社会推理系统的？”麻省理工学院的神经科学家安娜·伊万诺娃为此感到非常好奇，“这仍然是一个悬而未决的问题。”

一个大胆的假设是，意识是这一切的基础。根据“全局工作空间理论”（GWT），意识对大脑来说就像是公司的员工会议，是一个为各个模块提供可以分享信息并提供帮助的地方。当然，GWT并非意识的唯一理论，但AI研究者对它特别有兴趣，因为它提出了一个大胆的假设，即意识对于高级智能至关重要。完成一个简单或熟练的任务时，大脑可以自动运行。但是，当全新或者复杂的任务出现，并且超出了单一模块范畴时，我们需要意识到自己正在做什么。

戈策尔等学者已经将GWT的工作空间融入了他们的AI系统。“我认为全局工作空间模型的核心理念将以许多种不同的形式出现，”他说。研究人员在AI系统中运用GWT，目的并不是制造有意识的机器。相反，他们只是通过在硬件上实现GWT来获得类似人类的智能。

但是，在这个过程中，他们是否会在无意中创造出一个具有感觉和动机的有意识生命？GWT的提出者、加利福尼亚州拉荷亚神经科学研究所的伯纳德·巴尔斯认为这不太可能。“有意识计算是一个丝毫没有证据的假设，”他说。但如果AI研究者确实成功创建出了AGI，它们可能会对智能本身的架构和功能提供关键的洞察。

2、意识模型

GWT长期以来一直是神经科学和人工智能研究相互促进的典型案例。这个理论最早可以追溯到20世纪50年代，计算机科学家奥利弗·塞尔弗里奇提出的“鬼域”图像识别系统。他将该系统的模块类比于弥尔顿《失乐园》地狱中那些通过尖叫来吸引注意的恶魔。与塞尔弗里奇同时代的研究者艾伦·纽厄尔则选择了一个更安静的隐喻，即一群数学家聚集在一块黑板面前共同解决问题。这些比喻之后被认知心理学家所借鉴——20世纪80年代，巴尔斯提出了用GWT来解释人类意识。“在我的整个职业生涯中，我从人工智能领域学到了很多，因为它基本上是我们拥有的唯一可行的理论平台。”他说。

巴尔斯的GWT启发了孟菲斯大学的计算机科学家斯坦利·富兰克林去构建一台有意识的计算机。无论富兰克林的机器是否真的产生了意识——巴尔斯和富兰克林本人对此表示怀疑——它至少复现了人类心理的一些独特癖好。例如，当它的注意力从一件事转移到另一件事时，它会丢失一些关键信息，因此这台计算机在多任务处理的表现和人类一样糟糕。从20世纪90年代开始，法国巴黎法兰西公学院的神经科学家斯坦尼斯拉斯·德阿纳和让-皮埃尔·尚热试图揭示GWT的神经连接模式。

在德阿纳和尚热的模型中，大脑的功能模块在大部分时间中独立运作。但是，每隔十分之一秒左右，它们就会进行一次“员工会议”。这个会议是一个遵循既定规则的喊叫比赛：每个模块都有一些信息需要提交，而它对该信息越自信——例如，刺激与预期越是匹配，它就会喊得越响。一旦一个模块占据了上风，其他模块就会在下一刻安静下来，而胜出者则会将该信息放到一组公共变量之中，即工作空间。其他模块则会自行判断信息的有用性。“在这个有趣的过程中，模块之间既合作又竞争，每个模块都是解决问题不可或缺的一部分，”巴尔斯说。

工作空间不仅让模块彼此通信，而且提供了一个“论坛”，即使有些信息不再被呈递给感官，不同模块也可以在这个空间里集体思考。“你可以获得一些来自外部世界的东西——也许是一种转瞬即逝的感觉，虽然它从感官中消失了，但它还会继续在工作空间中回响。”德阿纳说。这种协商式思考的能力对于解决涉及多个步骤或跨越一段时间的问题至关重要。德阿纳在实验室中对人类被试开展了实验，他发现，当人类被试面临上述问题时，他们必须有意识地思考。

GWT摒弃了在模块之间指派任务的老板，因为分配任务很难正确完成。在数学领域，委托（或者在不同参与者之间分配责任以实现最佳绩效）属于所谓的NP-困难问题，解决起来可能非常耗时。在许多存在“老板”的系统中，如OpenAI可能使用的混合专家架构，一个“门控”网络负责分配任务，但它必须与模块们一起训练，而且这个训练过程极易崩溃。首先，它遇到了蓬蒂所称的“先有蛋还是先有鸡的问题”：因为模块依赖于门控，而门控又依赖于模块，所以训练可能会陷入循环。其次，即使训练成功，门控的分配机制也是一个黑匣子，其工作原理不透明。

2021年，卡内基-梅隆大学的数学家和荣誉退休教授曼努埃尔·布卢姆和莱诺尔·布卢姆夫妇详细阐述了一种全局工作空间中的注意力争夺机制。这个机制能够确保模块不会过分自信地提供信息，从而防止“吹牛大王”长期霸占工作空间。同时，模块之间还可以发展出绕过工作空间的直接连接。这种“捷径小道”可以解释我们学习骑自行车或演奏乐器时的认知加工过程：一旦我们学会了骑车或演奏，参与的模块们就会产生直接连接，它们会将任务离线处理，不再需要意识的参与。“它将需要短期记忆参与的加工过程转变为了无意识的加工过程。”莱诺尔·布卢姆说。

这是因为有意识地注意是一种稀缺资源。工作空间中的信息存储容量有限，所以胜出的模块在向其他模块传输内容时，必须极具选择性。这听起来像是一个有缺陷的设计。“大脑为什么对可以同时思考的事情数量做这样的限制？”加拿大蒙特利尔大学的AI研究者约书亚·本希奥抱有这样的疑问。但他认为这种限制是一件好事：它强化了认知的法则和纪律——由于世界的复杂性难以被全部追踪，所以我们的大脑必须识别出复杂现象背后的简单规则。“这个瓶颈迫使我们去理解世界的运作机制，”他说。

对本希奥来说，GWT对AI的重要启发是：今天的人工神经网络过于强大，反而不利于自身发展——它们拥有数十亿甚至数万亿的参数，足以容纳海量的互联网内容；但是，它们倾向于陷入细枝末节而忽略从这些内容中蒸馏出更为通用的机制。如果它们要以更类似人类意识思维的方式运作，使其庞大的知识库通过一个狭窄的漏斗，也许会更好。

3、让AI“学会”选择

本希奥在接触GWT之前，就已经开始努力将这种“类意识瓶颈”融入AI系统之中了。在21世纪10年代初期，由于我们的大脑会选择性地注意一个信息片段，并暂时忽略其他所有信息，受到这一启发，本希奥和他的同事在神经网络中构建了一个类似的过滤器。例如，当一个语言模型（比如GPT）遇到一个代词，它需要找到这个词的指代对象，一般是通过突显出临近的名词并抑制其他词性的词来实现。实际上，它“把注意力给到了”理解文本所需的关键词。当然，代词也可能与形容词、动词等相关联，神经网络的不同部分可以同时关注不同的词语关系。

但是本希奥发现，这种注意力机制带来了一个小问题。如果神经网络完全忽略某些单词，它会根据流程将对应于这些单词的权重置零。这样的突变就像把一个扳手扔进正在高速转动的发动机里一样，会扰乱反向传播这一训练神经网络的标准程序。反向传播通过神经网络的输出来追溯产生它的计算，如果输出是错误的，那么就可以修正产生该错误的计算。但是，权重置零带来的突变会干扰溯源。

据此，本希奥和同事发明了“软注意力机制”——神经网络具有选择性，但并不做极端选择。当判断一个代词可能会与哪些单词有关时，该机制会为不同选项赋予非零的权重。尽管一些单词的权重会比其他单词更高，但所有单词都不会被淘汰出局。“你得到80%的这个，20%的那个，因为这些注意力分配的权重是连续的，那么就不影响反向传播的微积分操作，”本希奥解释道。这种软注意力机制是变换器架构——GPT中的“T”的关键创新。

近年来，本希奥重新审视了这种方法以创建一个更为严格的“瓶颈”。他认为，想要让网络获得真正的理解能力，这一步至关重要。一个真正的全局工作空间必须做出硬性选择，因为它没有足够的容量跟踪所有选项。2021年，本希奥和他的同事设计了一个被称为“生成流”的网络，它会周期性地从可用选项中做出选择，每个选项的中选概率由其注意力权重决定。他通过前向或反向传播来训练网络，而不仅仅依赖于反向传播。这样一来，即使出现权重突变，该网络仍可以回头去修正产生错误输出的计算。通过一系列实验，本希奥已经证明，该系统针对输入数据产生的高级表征与我们的大脑产生的表征类似。

4、跨模态对话

实现全局工作空间的另一个挑战是高度专业化。就像大学里不同院系的教授们一样，大脑的各个模块创造了彼此无法理解的术语。视觉模块产生了抽象概念，让其能够处理来自眼睛的输入信息；听觉模块则发展出与内耳振动信号相匹配的表征。那么它们如何彼此通信呢？它们必须找到某种通用语或者亚里士多德口中的“共通感”——也是现代英语中“常识”一词的原始含义。这种需求在各大科技公司最近推出的“多模态”网络中尤为迫切，因为这种AI模型能将文本与图像以及其他形式的数据结合使用。

在德阿纳和尚热的GWT版本中，模块之间依靠神经元形成连接，后者通过调整它们的突触来将输入转换成本地方言。“它们将输入转化为自己的代码，”德阿纳说。但细节仍然模糊不清。事实上，他希望AI研究者在解决人工神经网络的类似问题时，能够为神经科学提供线索。“工作空间更像是一个想法，甚至还谈不上是一个理论。我们正在试图将其变成理论，但它仍然有很多未知。而工程师们有非凡的才能将其变成一个工作系统。”德阿纳说。

2021年，位于日本东京的AI公司Araya的创始人、神经科学家金井良太与跨学科进入AI领域的神经科学家、法国图卢兹大学的吕芬·旺吕朗提出了一种让人工神经网络完成翻译的新方法。他们从类似谷歌翻译这样的语言翻译系统中获得了灵感，这些系统是迄今为止AI取得的最令人印象深刻的成就之一。它们无需外部帮助就能完成自己的工作。例如，我们并不需要告诉这些系统英语中的“love”和法语中的“amour”具有相同的含义；相反，它们独立学习英语和法语，然后通过它们所学到的语言来推断出哪个单词在法语中扮演着与“love”在英语中相同的角色。

假设你分别用英语和法语训练了两个神经网络，每个网络都掌握各自语言的结构。在网络内部，一个被称为潜空间的内在表征，即“词云”将被构建出来。在词云里，意义相似的单词聚集在一起，而不相关的单词则各自分开，从而形成该语言中所有单词的关联图。显然，词云具有独特的形状，但是对于不同的语言来说，词云形状却是相同的，因为最终都被用来描述相同的世界。因此，你需要做的只是将英语和法语的词云旋转直到它们对齐。此时，你会发现“love”与“amour”对齐。金井说：“我们不需要词典，仅仅只需要找到正确的旋转方式来对齐所有点，就可以得到每种语言的所有单词在潜空间中的位置。”

因为这个流程不仅适用于单词，也可以应用于整个段落，所以它可以处理在意义上有细微差异，在另一种语言中没有直接对应词的单词。由此，它可以翻译像英语与汉语这样毫无关联的语言，甚至可被用于动物之间的交流。

旺吕朗和金井认为，这一流程不仅可以用于语言之间的翻译，还可以在不同的感官和描述模态之间进行翻译。“通过独立训练图像处理系统和语言处理系统，然后通过对齐它们的潜空间来将它们融合在一起，”金井解释道。与语言类似，因为图像系统和语言系统基本上都指向相同的世界，所以跨模态的翻译成为可能。而这一洞察正是德阿纳所希望的：AI研究为揭示大脑的工作原理提供线索。“神经科学家从未设想过对齐潜空间的可能性，”金井说。

要了解这些原理如何被付诸实践，金井与现在在微软工作的阿瑟·尤利亚尼，以及Araya的笹井俊太郎一起，研究了谷歌DeepMind在2021年发布的感知者模型。该模型旨在将文本、图像、音频和其他模态的数据融合到一个共同的潜空间中。2022年，谷歌将其整合到了一个自动生成短视频内容描述的系统中。Araya的团队进行了一系列实验，探究了感知者模型的工作原理。他们发现，虽然感知者并没有专门将全局工作空间设计进系统，但它具有全局工作空间的特征：独立的模块、在模块中进行选择的程序，以及工作记忆，即工作空间本身。

一个特别值得关注的、实现了类似工作空间功能的程序，是由位于捷克布拉格的AI公司GoodAI制作的游戏AI People。这个即将发布的游戏类似《模拟人生》，我去年夏天看到的版本，将舞台设置在了一个充满囚犯、腐败看守和认真的心理医生的监狱里，但该公司也计划设计更平和的场景。该游戏使用GPT作为游戏角色的大脑。GPT不仅控制它们的对话，还控制它们的行为和情感，使其具有一定的心理活动；同时，系统会追踪它们是否生气、悲伤或焦虑，并据此为其选择对应的行为。开发者添加了其他模块，如表现为短时记忆形式的全局工作空间，从而赋予游戏角色前后一致的心理并让它们在游戏环境中行动。

5、提取抽象表征

AI领域另一个可能的重大突破来自Meta的研究员杨立昆。尽管他没有直接引用全局工作空间作为他的灵感来源，在挑战生成模型——GPT中的“G”的霸权时，他通过自己的方式也获得了与GWT类似的想法。“我反对在当前AI或机器学习社区非常流行的一系列观念，”杨立昆说，“我在跟所有人说：放弃生成模型。”

生成式神经网络之所以这样命名，是因为它们基于训练内容来生成新的文本和图像。为了实现这个目标，神经网络必须对细节非常在意：它们必须知道如何在句子中拼写每个单词，如何在图像中放置每个像素。但是，智能的本质其实是选择性忽略细节。由此，杨立昆主张研究者们重新回到现在已不那么时髦的“辨别式”神经网络技术，例如那些通过感知输入之间的差异来识别图像的神经网络。这些网络不会自行构建图像，而只是处理现有图像并分配标签。

基于此，杨立昆创建了一种特殊的训练方案，使辨别式网络能够提取文本、图像和其他模态数据的关键特征。它可能无法自动完成句子，但它可以创建类似于我们大脑产生的抽象表征，这正是杨立昆所希望的。例如，如果输入信号是一辆汽车在道路上行驶的视频，由此产生的抽象表征应该捕捉到汽车的品牌、型号、颜色、位置和速度，同时省略道路表面的凹坑、水坑上的涟漪、路边草叶上的光芒——除非我们特别关注它们，否则我们的大脑会自动忽略这些无关紧要的细节。“所有那些无关紧要的细节都被消除了，”杨立昆解释说。

这些被精简的表征本身并没有用处，但它们使得AGI必需的一系列认知功能成为可能。杨立昆将辨别式网络嵌入到一个更大的系统中，使其成为类脑架构的一个模块。该架构包含GWT的关键特征，例如短时记忆和一个用来协调模块并确定工作流程的“配置器”。“我受到了心理学底层知识的极大启发，”杨立昆说。正如人类的大脑可以进行思想实验，想象不同情况下人会有什么不同的感受一样，配置器也会多次运行辨别式网络，罗列出一系列可能的行动，以找到能实现期望结果的最优方案。

杨立昆说，他更倾向于避免给“什么是意识”下结论，但他提出了一个他称之为意识的“通俗理论”：配置器的工作即意识，它所扮演的角色，类似于巴尔斯理论中的全局工作空间。

6、寻找真正的智能

如果研究者成功在AI系统中构建了真正的全局工作空间，那么这是否会使AI具有意识？德阿纳对此持肯定态度，特别是当GWT结合了自我监督能力的时候。但巴尔斯却不这么认为，部分原因是他对自己的理论仍然不完全信服：“我对GWT是否真的那么好，一直持怀疑态度。”在他看来，意识是生物特有的功能，它仅仅存在于具有特定生物构造的机体之中。富兰克林在几年前接受我的采访时表达了类似的怀疑。他认为，全局工作空间是自然演化为满足身体的需要而给出的答案。大脑依靠意识从经验中学习以迅速解决生存的复杂问题，但是，这种能力与AI通常需要应对的问题类型并无关系。“它必须是一个拥有真正心灵和控制结构的自主代理。”他告诉我，“那个代理必须经历生活本身——这并不意味着它不能是一个机器人，但它必须经历成长，而不是全知全能地降临到这个世界。”

英国萨塞克斯大学的神经科学家阿尼尔·塞思也有类似的观点。“意识不仅仅关乎聪明，”他说，“活着也同样重要。无论通用人工智能多么聪明，但如果它们不是活的，就不太可能有意识。”

塞思更倾向于支持被称为预测处理（也称作预测编码）的意识理论。这个理论强调意识试图通过预测即将发生的事情，为未来做准备。“理解有意识的自我，应该从理解控制身体的预测模型为起点，”他说。塞思主要关注意识的信息整合理论，这是一个和GWT相竞争的、关于意识的主流理论。这一理论未将意识与大脑的功能联系起来，而是将其与复杂的网络结构联系起来，即具有同样复杂结构的机器也能产生意识。根据这一理论，意识并非智能不可或缺的组成部分，而是出于提升生物效率的理由才出现。

AI是一个理念丰富的领域，工程师们已经获得了很多可以跟进的线索，无需等待神经科学的新发现。哥伦比亚大学的神经科学家尼古劳斯·克里格斯科特说：“他们做得足够好了！”但是，大脑仍然是通用智能的现实证据，而且至少在目前，是AI研究者能拥有的最佳模型。“人类大脑拥有一些工程尚未攻克的秘密，”克里格斯科特说。

在过去几十年里，对AGI的孜孜不倦的探寻教会了我们很多关于自身智能的事情。现在我们认识到，我们认为简单的任务，如视觉信息加工，实际上需要海量的计算；而我们认为困难的事情，如数学和国际象棋，实际上很容易。我们还认识到，大脑几乎不需要任何“预装”知识。它几乎可以通过体验学习到它所需要知道的一切。现在，通过了解模块化的重要性，我们正在逐渐明白一个古老的智慧：没有任何一个东西叫做智能。它只是一套装满各种能力的工具箱而已——从抽象思维到导航，从适应复杂的社会到对视觉和声音的处理。正如戈策尔所说的那样，通过混合和匹配这些多样化的技能，我们的大脑可以在我们从未遇到过的领域取得胜利。我们创造了新的音乐类型，解决了前一代人无法想象的科学谜题。如今，我们踏入了一个全新的未知之地——也许有朝一日，我们的AI表亲会与我们互相协助，共同前进。

（本文译者刘嘉是清华大学社科学院心理学系、脑与智能实验室基础科学讲席教授，北京智源人工智能研究院首席科学家）

]]>

2024年07月03日 10:49

5927