引子

二十多年前,在我还在上小学的时候,第一次接触QBasic编程语言。那时我惊讶地发现当我在提示符中输入“print(算式)”后,电脑会输出计算的结果,例如输入:print(3*5+8),电脑就会输出:23。于是一个大胆的想法出现了,如果我输入 print(“这里面是一道应用题”) ,电脑岂不是会把答案告诉我,那么以后的作业不就轻松搞定。然而当我满怀期待地输入上述命令后,电脑只是冷冰冰地把应用题的题干一字不差地打印了出来,童年的幻想就此破灭。

image-20240527231510356

image-20240527231532829

后来我上了大学,读了计算机专业,开始学习程序设计和软件研发,也搞懂了童年幻想中的print函数只是简单地将表达式的计算结果输出,并不会思考。但对于怎样让计算机像人一样能够思考这个问题的兴趣,却一直留在心中。然而越是了解得多,越是发现其中的困难重重。

就在去年,chatgpt爆火(在AI领域更早一些),我惊奇地发现,当我在输入框中输入一些常见的小学应用题时,chatgpt真得能给出解题过程和答案,而且针对这些常见得应用题,它还拥有很高的正确率。如下图所示的简单应用题,可以被目前主流的大语言模型轻松回答正确。

image-20240527231715392

二十年前的幻想又涌向心头,难道AI领域的大神,真的已经攻克了技术枷锁,能够让计算机像人类一样思考了,我迫切地需要探明其中的奥秘。

大语言模型的原理

为了解开心中的疑惑,在接下来的几个月时间,我利用工作之余,疯狂地从网上、论文网站把关于大语言模型的相关原理、资料饿补了一遍。关于大语言模型的基本原理,网上资料很多,下面几个是我觉得对我理解大语言模型帮助比较大的资料,可能你也已经看到过了。

1、这是我觉得所看过资料里面最直观,然后又比较紧凑,脉络很清晰的视频教程。

2、李宏毅 - 生成式AI导论,比较长,讲得生动有趣,可以当电视剧看。

3、资料宝藏,收集了诸多关于AGI的相关资料。

还有很多很多,就不列举了。我写这篇文章的目的,不是介绍大语言模型的原理,如果你有兴趣,上述链接是很好的学习资料。

大语言模型有规划和推理能力吗?

经过一段时间的学习,我完全能够理解大语言模型通过深度学习的方式,能够很好地完成诸如文字翻译、抽取、对话等任务,但大语言模型为什么能够表现出有一定的推理和规划能力呢?大语言模型真的有规划和推理能力吗?这个问题成为了在最近几个月困扰我的问题。

这里的推理和规划能力,指的并不是它能不能在推理和规划任务上得到正确的答案,而是它是不是真的有自主的思考能力。因为即使不具备推理能力,也能在一些推理任务上得到很好的结果。例如计算24点,利用计算机程序,可以比任何人都能更快的得到结果,虽然计算机程序并不具备人类意义上的推理能力。

而关于大语言模型的推理和规划能力,有意思的点在于,如果说它没有推理和规划能力,目前的大语言模型确实表现出了很强的“推理”能力。比如,我们可以问大语言模型一些完全是自己瞎编的,绝对不可能出现在训练语料库里逻辑问题。大语言模型却能够给出一套解决问题的思路和答案,这一点很让人惊奇,似乎大语言模型真的会自己思考。例如下面的一个简单问题:

小明去废品收购站卖废品,废纸1元1千克,废铁的价格是废纸的5倍,一个易拉罐的价格比1斤纸贵0.2元。小明卖了3千克的废纸,同样重量的废铁和7个易拉罐,请问废品收购站老板应该给小明多少钱?

下图是智谱AI glm-4模型结果,答案完全正确。

image-20240524210825453

同样,阿里通义千文2.5-MAX的结果,完全正确。

image-20240524211434653

其他的结果就没贴了,基本上都能得到正确的结果。虽然这道题不难,但确实是我随机瞎编的题目,训练集里可能有类似的题目,但不太可能有一样的题目。于是,一个个问号在我脑海中产生,挥之不去。

  • 大语言模型是怎么利用训练的数据生成这段逻辑非常清晰的结果的呢?

  • 为什么一个n-gram模型能够这么准确地预测出一道完整的解题过程?

  • 如果利用COT(Chain of Thoughts)、ToT(Tree of Thoughts)、GoT(Graph of Thoughts)这类思路提示的技术,岂不是要编写数以千万计的提示,那工作量得有多大?

难道大语言模型真的已经具备了人类的推理和规划能力?于是我又尝试了其他的例子,大语言模型的表现让我疑惑更多了。

请用5、5、5这3个数字,运用加减乘除四则运算,计算出15,注意所有数字都必须用上,并且只能使用一次。

这样一个简单的问题,对于人类推理来说太简单了,一名6、7岁的小孩看一眼就知道,把3个5直接加起来不就行了吗,但我试遍了所有大语言模型,它们都是按照自己固有的思维链进行推理,似乎还是程序运行的逻辑,又并不具备自主的推理。如果你觉得5、5、5三个相同的数字可能会让大语言模型感到困惑,那么在4、5、6这样三个数字上,他们的表现也没有好到那里去。

下图是通义千文2.5-MAX模型的结果,测试时间是2024年5月。

image-20240524235009383

下图是智谱AI glm-4模型的表现,半斤八两的表现。

image-20240524235109190

这样的例子还有很多,很多论文中也有许多其他类似的例子。我们不知道什么情况下大语言模型能给出正确的结果,我们需要人工去核对结果的正确性。于是上面的两个反向的例子更加让人感到疑惑不解,到底大语言模型有没有推理和规划能力?为什么有的时候表现出了很好的逻辑思维能力,而有的时候又完全迷失自我?

关于大语言模型“涌现”出的这些能力的解释,最著名的论文应该就是《Emergent Abilities of Large Language Models》。

论文原文:https://arxiv.org/abs/2206.07682

B站上的论文解读:清华博士带你思考大语言模型LLM的涌现现象(Emergent)【OpenBMB论文速读】第 8 期

但是这篇论文并没有能够解释产生“涌现”现象的原因,只是给出了两种假设,还都被作者自己给否定了。于是我们眼睁睁地看着大语言模型产生出了一些不可思议的能力,却又没人能彻底解释清楚其中的原理。把这一切归结于因为参数量足够大,量变导致了质变,这种“玄学”的解释,显然是无法令人信服的。

而另一方面,否定大语言模型具有推理和规划能力这种观点的大佬也大有人在,最著名的恐怕就是深度学习教父、2018年图灵奖联合获得者杨立昆(Yann LeCun)教授了,他坚定地认为现在这种基于transformer架构的大语言模型不具备与人相似的推理和规划能力(并不是说它不能完成推理和规划相关的任务),下面是我收集的关于这种观点的视频和论文。

  1. Can LLMs reason? | Yann LeCun and Lex Fridman
  2. 大语言模型有规划和推理能力吗(论文)
  3. 大语言模型有规划和推理能力吗(youtube)
  4. “What’s wrong with LLMs and what we should be building instead” - Tom Dietterich
  5. Yann LeCun: Towards Machines That Can Understand, Reason, & Plan
  6. Reasoning Using Large Language Models

这些论文的核心观点是大语言模型不具备跟人类大脑相似的原理,也不具备与人类相似的规划和推理能力,它只是将人类知识通过训练记忆到了模型中,形成了一个强大的记忆体。我简单地翻译了其中一篇论文:【译】大语言模型能规划和推理吗?, 如果对这个问题有兴趣,可以参考一下。

我的思考

作为一个对人工智能很感兴趣,但并没有从事人工智能相关工作的IT从业者,我目前比较相信大语言模型并没有人类意义上的推理和规划能力。大语言模型所表现出的推理和规划能力,只是因为训练过程中教会了它这些知识,它成为了一个具有强大知识储备的“万事通”,强大到它几乎记下了人类文明的所有知识。然而为什么在参数量足够大的情况下,它确能“涌现”出一些连训练它的人都无法解释的能力,这一点甚是让人困惑,它有时能表现出令人惊叹的推理和规划能力,而有时又表现得像一个无头的苍蝇,究竟这其中的奥秘又在哪里,我始终不得其解,也没有在网络空间中找到能够完美解释的材料,如果聪明的你能将整个逻辑链条理清楚,愿不吝赐教!

然而,不像人类一样的方式思考,并不意味着大语言模型一无是处。 就好比实现飞翔的梦想,也不一定非要在身上装两个翅膀,如果大语言模型能够在各种任务上取得理想的效果,却并没有按照人类的模式去运行,那又何尝不是一种路径呢。而目前大语言模型又确确实实解锁了很多之前计算机技术无法实现的能力。我记得很清楚几年之前的一个项目,需要从各式各样的体检报告中提取一些关键的数据指标,当时的技术使得这项任务十分困难,如果自己进行训练,投入和成本都是无法接受的,最终只能选择人工录入的方案。而目前主流大语言模型所提供的多模态能力,基本上可以使得研发人员在一两天之内就完成这个功能的开发工作,虽然不能达到100%准确率,也可以在极大程度上减少人工录入的工作。

我们看到目前大语言模型所展现的能力令人惊讶,但我认为距离真正的所谓通用人工智能(AGI)还有很大的距离,虽然有些组织很乐观地表示在几年之内就能实现AGI,但没有看到实际的令人信服的结果之前,一切都有待观望。

我整理这篇关于大语言模型内容的思考,是基于对这个问题的兴趣,将我这段时间的所学、所想、所思、所感总结记录下来。大语言模型最终是会像一些悲观者所预测的,成为下一个VR、元宇宙,还是会像乐观者所说的,成为下一个移动互联网级别的技术革命,时间会给出答案。