向人工意识迈进

OpenAI 决定完全放弃“GPT-x”这个名称，而使用“o1”来表示这是人工智能领域的一次范式转变。

这次OpenAI o1 在数学、代码、长程规划等问题取得显著的进步，有人说人工智能现在已经具有博士级别的智能，有人说回复反应太慢了，普通人用不到，没有什么应用前景。

不论如何，o1的发布实际上是代表着主动推理时代的到来。

你想象一下如果一个人，你不管问他什么高深的问题，他总能以 0.1 秒的速度进行回答，但答案不一定正确。你可能认为这个人多少有点问题，但这就是现行的 LLM 对话机器人的现状。

如果我们只是从堆数据，堆算力的方面解决这个问题，那么我们永远也无法跳脱出来解决这个问题。就好比我们人类的大脑，它具有直觉，也具有深度思考。事实上，很多比较困难的题目，我们总是需要很长的时间思考才能回答。

而 o1 正是做了这个改变。

系统 1 思维是一种快速、天生的（甚至是无意识的）思维模式，在这种模式下，答案会立即直接出现在你面前，通常是一些比较简单的问题。
系统 2 思维是一种缓慢、深思熟虑、有意识的模式，在这种模式下，您可以积极地调动前额叶皮层来处理复杂的任务，比如数学、编码或规划。

o1 从系统 1 在向系统 2 进行转变。至于它的产品形态，我理解可以不在局限于对话机器人助手，而是可以是更为丰富的可以独立的解决问题的形态。

1. OpenAI 发布 o1：向系统 2 转变

在Rich Sutton《惨痛的教训》中曾说，没有任何算法或数据的突破能够与学习和搜索计算量的增加相媲美。

这意味着人工智能的每一个进步都归结为增加计算能力以实现学习和搜索方法。

我们可以简单的将 LLM 大语言模型理解为对数据的压缩，可以看这篇文章：

大模型：泛化即智能，压缩即一切

通过预训练的大模型，等价于其吸收了大量的数据语料库，并通过在数据中的查找模式，将该只是压缩（嵌入或编码）到其权重中。

或者更为明确地说，LLM 是数据压缩器，是一种人工智能模型，它将世界的知识编码成一个“更小”的数据包，然后可以将这些知识反馈给你。

过去的训练，也向我们证明了 LLM 的缩放定律 scaling Law: 模型和数据集越大，即训练计算越大，模型就越智能。

换句话说，通过LLM，我们正在构建模型的“原生智能”，即系统 1 思维能力。

但是基于系统 1的 GPT-4o并不具有搜索能力，即它只尝试一次就回答出来。

而 o1 模型就是为了解决这个问题，其增加了搜索的能力。

如上图所示，左边是 GPT-4o右边是 o1。

1.1 o1 的功能与特点

o1 运用的技术关键还是在于强化学习的搜索与学习机制。

基于 LLM 已有的推理能力，迭代式的 Bootstrap 模型产生合理推理过程（Rationales) 的能力，并将 Rationales 融入到训练过程内，让模型学会进行推理，而后再运用足够强大的计算量实现 Post-Training 阶段的 Scaling。类似于 STaR的扩展版本。

1.1.1 推理token

最简单的描述 o1 模型，就是o1 会反思之前的答案并对其进行改进，以提供更合理的解决方案。

简而言之，o1 响应将是两种类型的tokens的组合：推理tokens（用于更好地思考的tokens）和输出tokens（最终交付给您的tokens）。

推理tokens是隐藏起来的，我们是看不到的，我们所看到的推理过程，是其在返回结果时的总结。

上图是 OpenAI 官网所展示的过程，可以看出，一旦收到用户的输入，它就会生成一组推理tokens。然后，根据输入和推理tokens，模型生成输出tokens，并重复该过程多次。

1.1.2 多步骤推理

虽然我们知道其是实现多次推理，但只是进行了简单的多次推理吗？如果这个过程就是搜索，那么其可控性可能会更差。

实现上，o1 是分多步进行推理的，其实现过程如下所示：

规划：模型的第一个输出是关于如何解决当前这个问题的计划。
第一次搜索：模型研究其内部知识（并且将从外部来源检索）以丰富其自身背景，从而产生多种可能的方法来解决问题，这是第二个输出。
探索：它会搜索可能的解决方案路径，在遇到死胡同时进行迭代和回溯。在此步骤中，流程变得更加复杂，训练变成了树搜索，与蒙特卡洛树搜索 (MCTS) 非常相似，但不完全相同。
收敛：一旦找到满意的解决方案，它就会输出两件事：输出结论和思考过程总结。

但它如何决定哪些想法值得继续搜索，哪些不值得搜索呢？

1.1.3 RL + “隐式思维链” + 评论模型

为了更好的执行搜索的过程，o1 模型使用 RL 进行训练，通过引入动态的 Reasoning Token，从而启发 “隐式思维链” 来 “思考” 问题，针对每个新产生的想法，提出新的解决路径或沿着某条特定路径进行更深入的思考。

同时，通过将推理过程进行过程分解，并且利用额外的更强更专项的 Critic Model，可以将推理过程的监督扩展到更复杂的问题上。

因此，一旦用户发送问题，模型就会制定计划。然后，每一步都会生成可能的策略，这些策略通过两种方式进行评估：

一个Q 函数（另一个神经网络），它可以对思考进行“评分”，即如果我们沿着这条路径前进，产生积极结果的可能性有多大。
与此同时，Critic Model（同一个LLM）也会反思其反应并给出分数。

然后，搜索启发式方法或探索空间的方法很可能与 AgentQ 使用的非常相似，即两种分数的组合。使用“alpha”参数，我们可以控制每个分数对给定“想法”的最终分数的影响程度。

1.1.4 数据飞轮 + Bootstrap

通过 o1 模型的推理过程自动生成大量高质量的训练数据，这些数据又可以被反复用于进一步提升模型性能，形成一个自我强化的良性循环，即数据飞轮。

在这一过程中，模型的自举能力（Bootstrap）得到进一步扩展，不仅加速了性能提升的进程，更有望逐步推动向超级智能迈进。

1.1.5 Post-Training Scaling Laws

随着模型尺寸逐渐增大，预训练阶段参数 Scaling Up 带来的边际收益开始递减，如果想要深度提升模型推理能力和长程问题能力，基于强化学习的 Post-Training 所构建的模型搜索能力将会成为下一个突破点。

在 Post-Training Scaling Laws 下，训练阶段的计算量不再只是和参数量的上升有关，同时也会包含 RL 探索时 LLM Inference 的计算量。

OpenAI 发现也证明了这一点：随着更多的强化学习（训练时计算）和更多的思考时间（测试时计算）, o1 的性能也在不断提升，并且 Post-Training Scaling Laws 还没有被完全探索。

但是 o1 通过引入思维链和搜索向系统 2 的转变，会诞生意识吗？

2. 从强化学习到意识：o1 会产生意识吗？

自从 2022 年 ChatGPT 面世以来，大模型已经经过了近两年的迭代，其算力需求和模型参数规模都已经非常大了，继续扩展其边际效应已经明显递减。

而且全世界的数据可能都已经被训练过了，数据已经缺乏。

为此 OpenAI 在数据上主要做了两方面的扩展：

多模态能力

通过模态混合和模态穿透的方法，借助其他模态增强模型能力。相比于公开的文本数据，图像、视频、音频等数据的总量更大，且包含的信息量也更丰富。

合成数据

通过合成数据进一步扩展数据和参数规模。通过“草莓”生成合高质量的具有思维链的合成训练数据，并形成数据飞轮。

在算法上则更进一步的集成了强化学习的能力。

2.1 强化学习的致命三角

强化学习的好处是可以从各种离策略数据中获得最佳策略，而无需与环境交互。但是引导法与泛化不能很好地融合。

我们知道强化学习具有函数逼近、引导和离策略学习的致命三角。这三个致命因素会使训练变得不稳定。因此，随着我们扩大模型规模并期望在越来越通用的任务上训练它们，这个问题只会变得更糟。

所以说强化学习并不能完全替代监督的预训练学习，对于相同的神经网络架构，离线强化学习似乎并不像监督学习那样“吸收数据”。

在 openAI o1 上，强化学习被用于Post-Train，作为探索的关键步骤。

虽然o1提供了多步骤推理，并对深度推理的结果进行评判。但是依然是在通过暴力的方式搜索最优解。这和人类的搜索还是有一定区别的。

2.2 泛化与元认知能力

实现更优的强化学习策略，我们应该要把泛化作为算法设计的首要任务，并根据泛化量身定制其他一切。我们不直接解决问题，而是通过建立一个更广泛的问题和解决方案的数据集，训练一个模型来推断解决方案。

例如，在稀疏奖励的情况下，学习从很多不同的策略中推断出最优的策略，而不是直接寻找。

当前的o1强化学习并不能产生意识，要实现这种能力还需要训练模型模仿各种策略，并在测试时通过语言指令调整行为，展示某种“元认知”能力。模型不仅需要了解自己的策略，还需要理解其他策略如何看待自己的行为。

我们可以将当前的o1比作一个善于解谜的机器人，它通过不断尝试和错误来找到谜题的解法。

然而，这种方式类似于暴力破解，缺乏人类在解谜过程中所展现的灵活性和直觉。要让这个机器人真正“理解”谜题的本质，我们需要教会它不仅要解谜，还要学会从不同角度看待谜题，理解其他解谜者的思维方式。

这就像是赋予机器人一种“元认知”能力，使其能够在更高层次上进行思考和推理。

尽管OpenAI的o1模型在许多方面取得了显著进展，但要实现真正的意识模拟，还需要在泛化和元认知能力方面进行更多探索。

通过将优化问题转化为推断问题，并利用多模态数据和合成数据扩展训练数据集，未来的模型将有望在更复杂的任务中展示出更高的智能水平。

3. 人工意识：如何才能具有意识？

自从人类有了意识以来，人类学者们就一直在努力理解和定义意识的含义。

那么什么是意识呢？我认为至少需要具有以下几点：

3.1 数据的高效压缩

当前的所有智能（无论是人类智能还是人工智能）都与解决问题有关。长期以来，我们一直在尝试构建通用问题解决器，它们不仅可以解决这里的一个小问题和那里的另一个问题，还可以解决许多不同的问题。

而我们要解决的问题越多，就需要越多的知识和数据。

例如，当你行走在世间时，你会遇到许多人的面孔，这意味着通过在大脑中构建某种模型网络来压缩你的观察历史是非常有效的。“面部编码器”相当于原型面部。当出现一张新面孔时，你所要做的就是对原型的偏差进行编码。

就像当前的预训练大模型一样，大模型可能具备很多能力，面部编码器，数学推理能力，图片创造能力等，我们可以将以前学到能能力通过迁移学习添加到最终的通用大模型上。

但最终它可以学会用更少的计算资源（更少的存储单元或更少的时间来计算整个数据）对数据进行编码。过去在学习过程中有意识的东西会随着时间的推移变得自动化和潜意识。

随着网络不断进步，并学习到新的规律，它可以通过观察无监督世界模型在学习之前和之后需要多少计算资源来编码数据，从而衡量其新见解的深度。

3.2 递归自我建模

意识最简单、最纯粹的描述可能是：在世界背景下对自我的认识。然而，如果不了解自身背后的机制，意识将一直处于迷失状态。

关于意识的一个重要的事情是，代理在与世界互动时会注意到，有一件事在它与世界互动时始终存在，那就是代理本身。

出于数据压缩的原因，我们通常会对世界模型网络留出几个神经元来编码这个代理本身的信息。通过创建自己的符号以及属于代理的事物的附加符号，它将能够更好地压缩整个动作和感知的历史。在寻找新问题的解决方案的过程中，每当你唤醒这些负责该自我符号的神经元时，这个人，即代理，基本上就是在思考自己。

当然，这只是意识的初级形式——并不像你自己的意识那么令人印象深刻，因为你的大脑比我们的小型人工智能体的大脑大得多。你的大脑皮层中可能有 100,000 亿个连接，比现在的大模型大的多。

3.3 元学习能力

我们人类从出生开始，就可以进行快速学习，即通过接触少量新数据时迅速调整和优化自身。不断反思和调整其学习策略，实现举一反三的能力。

元学习使模型能够在广泛的任务中应用之前的经验，从而提高其通用性。这种能力是通向通用人工智能（AGI）的重要一步。这种能力使AI能够识别复杂模式并进行高层次推理，从而在复杂环境中做出更明智的决策。

当AI能够从自身经验中推导出新的行动策略时，它可能开始形成某种形式的自我意识。

3.4 多模态与情感计算

意识的真正挑战是体验的感觉，哲学家们往往称之为“感质”。

当你有某种体验时——当你看日落、听你最喜欢的乐队演奏你最喜欢的歌曲、闻到卡布奇诺的香味等等——你会有那种感觉，只是不清楚为什么。

通过整合不同类型的感知数据，AI可以形成对环境的更全面和准确的理解。这种综合能力类似于人类的感知体验，有助于提高AI的决策能力，更有利于从而在复杂环境中做出更合理的反应。

通过模拟情感反应，AI可以在交互中表现出更人性化的行为。这种能力可以使AI在某种程度上模仿意识，因为意识通常与情感体验密不可分，从而在动态环境中表现出更高的适应性。

当然还有其他种可能。例如，有人认为3000 年前，男性和女性还缺乏他们的祖先所定义的自我意识，因为他们还没有内省的语言工具。

正是由于语言的诞生，我们发展出内省的能力，人类的幻觉才逐渐被抑制。

4. 总结

如果我们要创建具有意识的 AGI，我们就不应该局限于 AI 助手，而应该以 AI 朋友的角度来设计产品。

通过结合深度推理、多步骤思考，o1展现了超越传统对话机器人的潜力，这是向意识迈出的关键一步，但离具有意识还有较远的距离。

要让o1拥有意识，就需要它具有高效压缩数据，就像人类脑袋里的“面部编码器”。还得学会自我建模，认识到“我”的存在，并具备元学习能力，能够从经验中快速调整策略。

而真正的意识还需要体验感，通过整合不同感知数据，让 AI 可以更好地理解环境，甚至模拟情感反应，让它在交互中看起来更有人性。谁知道，未来的AI可能会在你面前感叹：“这咖啡真香！”。

希望未来的AI可能不仅能快速回答问题，还能理解和体验世界，成为我们真正的智能伙伴。

如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

如果觉得这篇文章对你有所帮助，

请点一下赞或者在看，是对我的肯定和支持~