【译】大语言模型能规划和推理吗？

作者： Subbarao Kambhampati （亚利桑那州立大学）

前言：关于大语言模型，有时候我很惊讶它的逻辑推理能力，表现得绝顶聪明。然而有时候对于一些简单的推理，它又表现得跟智障一般。于是一个疑问萦绕心中：大语言模型到底有没有推理能力，它所表现出来的推理能力源自何处（是深度学习，神经网络，训练材料？）。这篇 Subbarao Kambhampati的论文结论是大语言模型没有人类意义上的推理和规划能力，我仔细阅读并简单翻译和注释了一些内容，如果有需要可以查阅。如果翻译中有错误，也请指正。

大语言模型（LLM），本质上是在互联网级语言语料库（或者说，实际上是我们的文明知识）上训练的超级增强的n-gram¹模型，以其出乎意料的文本补全系统能力，激起了我们集体的想象力。从训练和运行的角度来看，LLM或许最好被视为一个巨大的非真实记忆，类似于为我们所有人提供的外部系统1²（如图1）。然而，它们看似无所不能的特性使得许多研究者开始思考，大语言模型是否也能在通常与系统2能力相关的规划和推理任务上表现出色。

注1：n-gram模型，n-gram模型是自然语言处理（NLP）中的一种统计语言模型，它用于预测一个文本序列中的下一个单词或字符。在这种模型中，“n” 表示上下文中前后文单词的数量。“gram” 在语言学中指的是一组单词。

注2： “System1"和“System2”最早是2002年诺贝尔经济学奖得主丹尼尔·卡尼曼的畅销书《思考快与慢》中提到的一组心理学概念。System 1 是一种快速、直觉、自动的思考方式。它负责处理简单、快速、无意识的认知任务，如识别物体、人脸，或者进行简单的算术运算。这种思维方式是无需努力、自然而然的，通常在我们意识到之前就已经发生了。System 2 是一种慢速、逻辑、控制的思考方式。它负责处理复杂、需要努力、有意识的认知任务，如解决困难的数学问题、进行逻辑推理或者规划复杂的决策。这种思维方式需要集中注意力，通常涉及深思熟虑和推理。

在LLM的训练和使用过程中，似乎没有任何迹象表明它能够进行任何类型的原则性推理（我们知道，这通常涉及计算上困难的推理和搜索）。LLM擅长的是一种通用近似检索形式。这与精确索引和检索数据的数据库不同，作为n-gram模型的LLM，是通过对提示逐词概率性地重构完成项——我们将这个过程称为近似检索。这意味着LLM甚至不能保证记住完整的答案，这是它们在即时构建“新颖”提示完成项时所具有吸引力的另一面。LLM的利与弊（“创造力”与“幻觉”）在于，n-gram模型自然会混合和匹配——并且在严格记忆方面几乎和我们一样困难。这确实是它们吸引力的基础。

尽管如此，“大型语言模型是零样本 ⟨插入你的推理任务⟩”这样的标题几乎已经成为一个梗！在某种程度上，这种趋势或许是不可避免的，因为在LLM的时代，人工智能已经变成了一种替代自然科学的形式，这是由对这些庞然大物系统能力的观察性研究所驱动的。

那么，这些超级增强的n-gram模型真的能够进行规划和推理吗？在2022年的夏天，我的研究团队想要更好地回答这个问题，那时大多数关于大语言模型具备推理能力的看法都是肯定的。因此，我们着手评估GPT3在一系列规划实例上的表现，这些实例来源于在国际规划竞赛（IPC）中经常使用的领域，其中包括著名的积木世界（Block World³）。我们的结果与关于LLM规划能力的乐观性断言相反，当我们公布这些结果时，在人工智能领域引起了广泛关注。

到了2023年初，随着ChatGPT的广泛传播，以及后来的GPT4，有关LLM的推理和规划能力的额外断言层出不穷，包括在同行评审的论文中。因此，我们决定在GPT3.5和GPT4上重复我们的测试。初步结果显示，从GPT3到GPT3.5再到GPT4，生成的计划的准确性有所提高，GPT4在积木世界（Blocks World）中达到了30%的经验准确性（尽管在其他领域仍然较低）⁴。然后我们想要了解，这种小幅改进是否是因为提高了的近似检索能力，还是因为GPT4真的在进行搜索和规划。

注3：Blocks World：https://en.wikipedia.org/wiki/Blocks

注4：他们之前在2022年的论文：https://arxiv.org/abs/2206.10498，测试的脚本、数据集和结果：https://github.com/karthikv792/LLMs-Planning

让我们暂停一下，注意我的兴趣不在于大型语言模型是否能够伪造推理（通过记忆和模式查找给出推理任务的正确答案），而在于它们是否能够实际进行原则性推理。当然，在推理问题中寻找模式并不是什么可以被鄙视的事情。毕竟，我们对于掌握它的兴趣是很多“街头斗殴”式数学背后的推动力（例如乔治·波利亚的《如何解题》）。但是，找到近似捷径而非可证明的正确推理过程显然不等同于进行推理——除非你有一种能力，可以从第一性原理出发，证明你的直觉实际上是正确的。判断一个系统（或者人类，就此而言）是在强行记忆还是从零开始解决问题很具有挑战性，尤其是当这个系统（或人类）在越来越大的“题库”上进行训练的时候。这是大多数教师和面试官都深切意识到的一个挑战。想想那个臭名昭著的“为什么井盖是圆的？”的面试问题。虽然这个问题在第一次被提出时很可能为面试官提供了了解候选人分析推理技能的洞察，但现在它极有可能只是在确认候选人是否在面试题库上受过训练！

考虑到大语言模型（LLMs）并不受人类的一些正常限制（比如人类有个人生活，因此人类没有时间或意愿长时间专注于考试或面试的准备），大语言模型可以在网络规模的语料库上支持近似检索。我的研究小组想要验证GPT4性能的提升是否是因为从更大的训练语料库中进行近似检索，还是真的来自于它的规划能力。对于规划任务，检查这一点的一种方法是通过混淆规划问题中动作和对象的名称来降低近似检索的有效性。当我们对测试领域这样做时，尽管标准的现成AI规划器在这种混淆下都没有任何问题，但GPT4的实证性能却急剧下降。

或许它们一开始不能直接自主地进行规划，但如果有轻微的推动，它们能做到吗？对于这样的推动，大致有两种流行的技术。第一种称为“微调”，相对简单直接：拿一个通用的大型语言模型，在规划问题（即实例及其解决方案）上进行微调，希望随后它们能做出更好的猜测（见图1的左侧）。尽管我们自己的有限实验并没有显示出通过微调有显著改进，但有可能在进行了更多微调数据和努力的情况下，大型语言模型的猜测质量很可能会提高。但所有这样的微调所做的，不过是将规划任务转化为基于记忆的近似检索（类似于从系统2到系统1的记忆和编译；见图1）。这并不能证明大型语言模型能够进行规划。

改进规划（及推理）性能的第二种方式是向大型语言模型提供关于如何改进其初步计划猜测的提示和建议。这里的关键问题是：（a）这种反向提示是手动还是自动的；（b）谁在认证最终答案的正确性；（c）这些提示是否注入了额外的问题知识，还是仅仅在敦促大型语言模型再次尝试。

我们提倡的最简洁的一种方法是让基于外部模型的计划验证器来进行反向提示，并验证最终解决方案的正确性。一般来说，这样的LLM-Modulo⁵框架可以在生成-测试-批判的框架下，利用LLM惊人的想法生成能力，结合可靠的外部验证器，并确保结果的正确性。

注5：LLM-Modulo：LLM-Modulo是Subbarao Kambhampati 在之前论文中提出的一种框架，可以参考：https://zhuanlan.zhihu.com/p/688895309

相比之下，迄今为止更受欢迎的方法是让人类参与者迭代地提示LLM。这个问题在于，它极易受到聪明汉斯效应⁶的影响，其中LLM只是在生成猜测，而真正引导LLM的，是知道正确与错误解决方案的人类参与者——即使他们并非有意这样做。后续准确性的功与过，完全落在人类参与者身上。当人类参与者不知道（或者无法验证）推理或规划问题的答案时，这种框架的相关性就变得可疑了。因此，图2中对LLM推理能力的戏谑描述也就不足为奇了。

注6：聪明汉斯效应：聪明汉斯（Clever Hans）是著名的观察者期望效应例子。聪明汉斯是一匹懂得算术和做出各式各样惊奇技能的马，而事实上聪明汉斯不是真的懂得算术，而是靠训练员和观察者无意识下给予的暗示（例如：表情、姿势）得出正确答案。

第二种方法的变体是让LLM自身“批判”它生成的猜测，并迭代自我改进。尽管一些论文似乎对LLM的这种“自我改进”能力深信不疑，但这一说法的可信度取决于一个信念：LLM在验证解决方案方面比生成解决方案要强。尽管这一假设从未被明确证实，但它基于类比于人类或者间接提及计算复杂性论点的支撑。虽然人类有时确实表现出通过自我批判来纠正自己错误猜测的能力，但在LLM的情况下，似乎没有这种假设的基础。而且，对于许多计算任务（例如那些属于NP类的问题），验证通常比生成具有更低的复杂性，但这个事实对于生成（近似检索）猜测而不是真正有保障地解决问题的LLM来说，似乎并不特别相关。实际上，我的实验室最近的两项研究（一项是关于计划验证，另一项是关于约束验证）似乎通过显示“自我验证”实际上会使性能变得更糟，给这种乐观态度泼了冷水。这是因为LLM在验证它们生成的解决方案时，会幻想出错误的正面和负面结果。早期文献中没有认识到这一点的原因之一在于，自我验证的主张通常是在隐式知识任务的背景下提出的，对于这些任务，几乎没有可能存在验证器（例如写作或改进文章），这使得评估LLM的批判是否真正有帮助变得更加困难。矛盾的是，由于为隐式知识任务编写可靠的验证器是不切实际的，这也使得更容易将LLM误认为是合理的批判者！在其他情况下，外部模拟器最终扮演了可靠验证的角色。

尽管前面的内容质疑了LLM具备规划或推理能力的说法，但这并不意味着LLM在解决规划或推理任务中不能扮演建设性角色。特别是，它们在生成想法或潜在候选解决方案方面的非凡能力，尽管这些猜测并没有保障，但结合基于模型的验证器或回路中的人类专家，“LLM-Modulo”设置中仍然可以很有价值。避免将自主推理能力归功于LLM的诀窍在于认识到LLM生成的潜在答案仍然需要通过外部验证器进行检查。

持怀疑态度的读者可能会问：那么在那些高知名度的AI会议上，声称展示了LLM规划能力的那些论文又是怎么回事呢？为了分析这些说法，我们首先需要理解解决规划任务需要：

（a）拥有必要的规划领域知识——行动及其前提条件、效果；标准的分层食谱（例如，在分层任务网络规划中的任务缩减架构），过去的案例或计划等等；

（b）能够将这种知识组装成一个可执行的计划，该计划能够处理任何子目标或资源之间的交互。

第一部分可以称为知识获取部分，第二部分为推理和规划部分。许多声称LLM具有规划能力的论文，在仔细检查后，最终混淆了从LLM中提取的通用规划知识，将其误认为是可执行的计划。当我们只需要抽象计划，比如“婚礼计划”，并没有实际执行这些计划的意图时，很容易将它们误认为是完整的可执行计划。实际上，我们对几篇声称LLM具有规划能力的论文的仔细审查表明，它们要么在可以安全忽略子目标交互的领域或任务中进行评估，要么将交互解决（推理）委托给链路中的人类（他们必须通过重复提示来“纠正”计划）。有时，在常识领域，或者经过足够的微调后，“组装”部分也可能因为看到了与需要解决的问题非常相似的情况而被省略。没有这些假设或缓解措施，LLM输出的计划可能对普通用户看起来合理，但在执行过程中就会出现冲突和错误。这些问题可以从一个最近的新闻故事所说明：关于大量从LLM自动提取的旅行计划书籍的泛滥，以及那些不知情的用户购买后误以为它们是真正可用计划的失望！

LLM通常擅长提取规划知识，这一点确实可以被有效地利用。正如我们在最近的工作中所述，只要链路中的人类（和任何专门的批评者）验证并精炼模型，并将它们交给基于模型的求解器，LLM可以成为世界或领域动态和用户偏好近似模型的一个丰富来源。这种使用LLM的方式的优点在于，人类只需在提取和精炼动态或偏好模型时在场，而在此之后的实际规划可以留给具有正确性保证的可靠框架来处理。

图3：将大语言模型看作是在文明知识上训练出来的近似知识源

这种框架与过去基于知识的AI系统有着惊人的相似之处，LLM有效地取代了“知识工程师”（见图3）。鉴于AI领域对接受人类专家领域知识的做法进行了相当荒谬和教条的转变，我在“波拉尼的复仇与AI对隐性知识的新的浪漫”一文中对此表示遗憾，这种将LLM作为知识来源的新趋势可以被视为一种报复波拉尼的复仇（通过将显性知识带回AI系统，即使只是从LLM中提炼出来的）。实际上，LLM使得获取特定问题知识变得容易，只要我们愿意放宽对知识正确性的要求。与旧的知识工程方法相比，LLM提供了这一点，而不会让人感觉我们是在给任何特定的人类带来不便（相反，我们只是在利用人类彼此之间的所有交流！）。因此，对于推理任务来说，一个至关重要的问题变成了：“如果你有一个愿意给你任何类型知识的摇摇欲坠的全知者，你会如何进行规划？”LLM-Modulo框架是解决这一挑战的有原则的方法。

总结一下，我所阅读、验证或做的任何事情都没有给我任何令人信服的理由让我相信LLM能够进行常规意义上的推理或规划能力。相反，凭借网络规模的训练，它们所做的只是一种通用近似检索的形式，正如我所论证的，这有时可能被误认为是推理能力。LLM在任何任务（包括涉及推理的任务）的想法生成方面确实表现出色，正如我指出的，这可以有效地在LLM Modulo框架中支持推理或规划。换句话说，LLM已经具有足够的惊人近似检索能力，可以有效地利用，我们不需要将可疑的推理或规划能力归因于它们。