推理是一种坍塌吗？——AI 思考时，内部到底发生了什么

发布时间：2026-05-24来源：图灵人工智能

点击上方“图灵人工智能”，选择“星标”公众号

您想知道的人工智能干货，第一时间送达

转自AI-lab学习笔记，仅用于学术分享，如有侵权留言删除

如果大语言模型只是预测下一个 token，为什么它会表现出推理能力？这篇文章从一篇新论文出发，解释模型推理时隐藏状态如何从高维空间自组织到低维流形，也说明这项研究的边界：它更像一次内部动力学体检，而不是推理理论的终局。

如果大语言模型只是预测下一个 token，为什么会表现出推理？这篇从推理流形论文出发，把低维流形、维度坍塌、信息体积翻译成一个直觉：好的推理不是把世界压扁，而是把混乱折成一条还能走的路。

① 文字接龙怎么长出推理 → ② 什么是推理流形 → ③ 坍塌为什么不够 → ④ 压缩即智能的新补丁 → ⑤ Prompt 和结构

开场：文字接龙，怎么长出了推理？

如果你一路读这个公众号，会发现我们反复讲过一句话：

大语言模型（LLM）的基本任务，是预测下一个 token。

给它前文：

今天的天气很

它预测后面可能是：

好 / 冷 / 热 / 糟糕

给它前文：

如果 A 大于 B，B 大于 C，那么

它预测后面更可能是：

A 大于 C

这就是 next-token prediction。

听起来很朴素。

甚至有点扫兴。

因为我们真正关心的是：

它为什么会解题？它为什么会写代码？它为什么会反思？它为什么能一步步推理？

如果 AI 只是文字接龙，那推理从哪里来？

这是所有理解大模型的人都会撞上的问题。

上一篇我们讲了图灵奖三巨头的三种 AI 态度：失控、自主目标与后果感。

那篇文章把问题推向了后果空间：

AI 开始行动之后，能不能预演自己的后果？

这篇文章把镜头拉回模型内部：

AI 还在生成 token 的时候，所谓“推理”到底是什么形状？

在 《马尔可夫的幽灵》 里，我们讲过：

从预测下一个字母，到预测下一个词，再到预测下一步行动，中间有一条连续的线。

在 《DeepSeek-R1：一个模型如何学会“思考”》 里，我们又讲过：

当模型被奖励“答对”时，它会学会把更多 token 用在中间推理上，像在草稿纸上演算。

但这些解释仍然有一个缺口：

推理时，模型内部到底发生了什么？

不是输出文本看起来像推理。

不是 benchmark 分数提高了。

而是模型在隐藏层里，怎样组织信息？

最近有一篇论文提供了一个很有意思的观察框架：

Reasoning emerges from constrained inference manifolds in large language models

可以粗略翻译成：

推理从大语言模型中受约束的推理流形里涌现出来。

这个标题很硬。

但它背后的直觉，其实可以讲清楚：

AI 推理时，不是在高维空间里乱撞。它会把内部状态压缩到某种低维结构上。

更重要的是：

好的推理不是压得越低越好，而是在压缩之后还保留足够的信息。

这句话，会给我们一直讲的“压缩即智能”补上一块重要拼图。

一、先说清楚：这不是推理理论的终局

这篇论文很有启发。

但如果要认真读，第一件事不是兴奋，而是先把它放对位置。

它不是在说：

我从数学第一性原理证明了 AI 为什么会推理。

它更像是在说：

我们把模型推理时的隐藏状态拿出来，看它们在高维空间里怎样运动，然后发现了一种稳定的几何现象。

所以，它首先是一篇实验性很强的内部动力学研究。

它有公式。

但这些公式不是牛顿定律那种“从此以后万物按这个推导”的公式。

更准确地说，它提出了一套诊断指标。

就像医生给人做体检：

血压心率血糖血氧

这些指标不能单独解释“生命是什么”。

但它们能告诉你，一个身体是不是处在比较健康的状态。

论文做的事也类似。

它不直接回答：

模型为什么一定会得到正确答案？

它更关心：

模型在推理时，内部运动是不是处在一种比较健康的结构状态？

这点很关键。

因为如果把它过度神化，就会把一篇有意思的论文读坏。

如果把它看成“推理机制已经被破解”，那太早。

如果把它看成“我们终于有了一种观察推理内部形状的方法”，那就非常值得写。

二、不要只看答案，要看内部轨迹

我们通常怎么评价 AI 会不会推理？

很简单：

题目给它。答案拿来。对了加分。错了扣分。

比如数学题、代码题、逻辑题、选择题。

这种评价当然有用。

但它有一个问题：

它只看结果，不看过程。

两个模型都答对了，内部可能完全不同。

一个可能真的形成了稳定推理。

另一个可能只是撞上了训练集里见过的模式。

两个模型都答错了，也可能完全不同。

一个可能方向对了，只是最后算错。

另一个可能从一开始就在胡说。

所以，如果我们想研究“推理本身”，不能只盯着输出文本。

我们要看模型内部。

大语言模型每生成一个 token，内部每一层都会产生一个隐藏状态。

你可以把它想成模型当时的“脑中坐标”。

这个坐标不是二维，也不是三维。

它可能是几千维。

比如某一层的隐藏向量：

[0.12, -1.37, 0.08, ..., 2.41]

一长串数字。

一个 token 对应一个点。

生成下一个 token，又是一个点。

模型一步步推理时，这些点会连成一条轨迹。

第 1 步隐藏状态 → 第 2 步隐藏状态 → 第 3 步隐藏状态 → ...

从外面看，是模型在写字。

从里面看，是一个点在高维空间里移动。

论文研究的，就是这些轨迹。

它问的是：

当模型进入推理状态时，这条高维轨迹有没有某种结构？

论文报告说：有。

而且在多个模型和任务上，这种结构相当明显。

三、什么是流形：把高维混乱折成一条路

“流形”这个词听起来很数学。

我们先不从定义开始。

想象一张纸。

它本来是二维的。

你可以在纸上画一只蚂蚁的路线。

现在你把这张纸揉弯、折起、卷成一个复杂形状，塞进三维空间。

从外面看，它在三维空间里弯弯绕绕。

但对纸面上的蚂蚁来说，它仍然只是在一张二维纸上走。

这就是流形的直觉：

一个低维结构，嵌在更高维的空间里。

地球表面也是这样。

地球在三维空间里。

但我们走路时，大多数时候只在二维表面上移动。

经纬度两个数，就能定位一个地方。

同样，模型的隐藏空间可能有几千维。

但推理时，真正被用到的自由度，可能远远少于几千维。

它不像烟雾一样向所有方向散开。

它更像沿着某张被折叠进高维空间的纸面移动。

这张“纸面”，就是推理流形。

更形象一点：

高维空间：整座城市的所有可能位置推理流形：模型真正会走的那几条路

推理不是在所有可能方向里乱跑。

推理是在高维空间里形成了一条受约束的路。

这就是论文最有意思的观察：

推理时的内部表征，会自发收缩到低维流形上。

注意几个关键词。

第一，自发。

不是工程师手工规定模型只能走这条路。

而是训练之后，模型在推理时自然形成这种结构。

第二，低维。

模型的表示空间很大，但推理轨迹的有效维度很小。

第三，推理时。

它不是说模型所有知识都低维。

模型的词表、概念、世界知识仍然需要很高的表达能力。

低维结构是在具体推理过程中出现的。

四、坍塌：从无数可能，压成少数方向

论文里一个很重要的词，是 dimensional collapse。

可以翻译成“维度坍塌”。

这里的“坍塌”不要理解成坏掉。

它更像一团散开的可能性，被推理任务压成少数关键方向。

比如你看到一道题：

小明有 3 个苹果，又买了 5 个苹果，现在有几个？

一开始，“苹果”这个词可以激活很多东西：

水果颜色价格营养公司品牌童话牛顿手机

但在这个上下文里，真正相关的是数量。

于是模型内部要做一件事：

把无关方向压下去，把相关方向留下来。

这就是推理中的压缩。

如果什么都不压缩，模型会被无数联想淹没。

如果你问“苹果有几个”，它却同时想起乔布斯、牛顿、果园、营养成分、iPhone 发布会，它就无法稳定计算。

好的推理一定需要收窄。

它要从混乱的可能性里选出一个子空间：

这道题现在主要和数量有关。

这和 《为什么 QKV 长这样》 里讲过的“上下文让词义坍缩”很像。

一个词的 Embedding 里有很多可能含义。

Attention 根据上下文，把它推向当前最相关的方向。

现在，推理流形把这个想法推进了一层：

不只是词义会在上下文中收窄，整个推理过程也会在内部空间中收窄。

这就是“推理是一种坍塌”的第一层意思。

五、但坍塌不是越狠越好

到这里，很容易产生一个错误理解：

既然推理需要低维坍塌，那是不是越低维越好？

不是。

这恰恰是论文最值得写的地方。

低维结构是必要的。

但低维结构不够。

如果一个模型把所有东西都压成一条死线，甚至压成一个点，那它确实“不乱”了。

但它也没法思考了。

想象一个学生解题。

完全不压缩，他会发散到一堆无关想法：

苹果是什么颜色？小明是谁？买苹果贵不贵？牛顿为什么被苹果砸？

这叫散。

但压缩过头，他只剩一句机械口号：

遇到数字就相加。

这也不行。

因为下一题可能是：

小明有 8 个苹果，吃掉 3 个，还剩几个？

如果他只会“数字相加”，就会错。

所以，健康推理要在两个坏状态之间找到平衡：

太散：信息到处跑，没有结构。太死：结构很紧，但没有足够信息。

论文把这个说得更精确：

有效推理需要三个条件。

第一，足够表达能力。模型底层空间要足够丰富，能表示复杂世界。第二，自发流形压缩。推理时不能在高维空间里乱散，要形成低维结构。第三，非退化信息体积。压缩后的空间里，还要保留足够多有用变化，不能塌成空壳。

这三个条件缺一不可。

只要表达能力，没有压缩，模型会发散。

只有压缩，没有信息，模型会僵死。

只有信息，没有结构，模型会混乱。

所以，真正的推理不是简单“坍塌”。

更准确地说：

推理是在高表达空间里，把信息压缩进一个仍然有生命的低维结构。

六、论文里真正硬的地方：三个量和一个公式

到这里，我们可以把论文自己的技术骨架讲出来。

它不是只写了一个漂亮比喻。

它真正尝试测量三个东西。

第一个叫 D_world。

可以理解成：

模型的世界表达能力有多丰富？

论文用静态词表 Embedding 的内在维度来估计它。

意思是：模型底层空间能不能容纳足够复杂的世界概念。

如果这个底子太薄，后面推理再怎么收缩，也是在贫瘠的空间里收缩。

第二个叫 D_stim。

可以理解成：

模型被题目刺激之后，推理轨迹实际用了多少自由度？

这个量越高，说明轨迹越散。

但它也不能无限低。

低到没有变化，就不是推理，而是僵死。

第三个叫 V，也就是信息体积。

可以理解成：

压缩后的推理轨迹里，还保留了多少有用变化？

这就是论文最有价值的修正：

只看维度不够。还要看低维结构里有没有信息。

最后，它把三者合成一个诊断量：

H = log(D_world) × V / exp(ε × D_stim)

这个公式的意思很直观。

log(D_world)：底层世界表达能力越强越好，但不是无限支配一切。 V：压缩后保留的信息越多越好。 exp(ε × D_stim)：推理轨迹太散，要被惩罚。

所以它奖励的是一种状态：

底座足够宽；推理过程足够收敛；收敛之后信息仍然活着。

这里最容易误解的是：

H 不是“聪明公式”。

它不是说你把这个公式塞进训练代码，模型就会变聪明。

它更像一个内部体检分数：

不看答案标签；不看 benchmark 正确率；只看隐藏状态的运动形状；然后判断这种运动是不是接近健康推理的结构。

论文报告说，这个结构指标和多个推理 benchmark 的表现有很强相关性。

这很有意思。

但相关性不是因果证明。

它告诉我们：

强推理模型常常呈现这种内部结构。

它还没有证明：

只要人工制造这种结构，就一定得到强推理模型。

这一步，才是后续研究真正难的地方。

七、压缩即智能，但不是压扁

这对我们之前的“压缩即智能”很重要。

如果你只听到“压缩”两个字，很容易误解成：

把信息越压越少，模型就越聪明。

不对。

压缩不是把世界压扁。

压缩是把世界组织起来。

一本教材不是把知识删掉。

它是把一堆经验、实验、定理、例子、习题，组织成一个人能学习的结构。

一个公式不是把物理现象消灭。

它是把无数现象背后的共同规律提出来。

一张地图不是把城市变少。

它是保留道路、方向、距离和边界，舍弃树叶、尘土和每块砖的纹理。

好的压缩，丢掉的是噪音。

坏的压缩，丢掉的是灵魂。

LLM 推理也是这样。

一个强模型不是把所有概念都压成一个套路。

它是在具体任务中临时形成一张简洁的内部地图：

哪些变量重要？哪些关系成立？哪些步骤必须保留？哪些联想应该放下？哪里需要检查？哪里可能出错？

这张地图越紧凑，推理越不容易散。

这张地图越有信息，推理越不容易空。

这就是“流形”给我们的直觉：

推理不是在知识海洋里漂浮，而是在高维空间里折出一条可以走的路。

八、推理模型为什么要多写 token？

现在我们再回看推理模型。

为什么 DeepSeek-R1 这类模型，要在回答前写那么长的 <think>？

表面看，是多写了一段推理文本。

本质上，是给模型更多时间，让内部状态沿着推理轨迹走得更充分。

普通模型像这样：

问题 → 直接答案

推理模型像这样：

问题 → 中间状态 1 → 中间状态 2 → 中间状态 3 → 检查 → 答案

这些中间 token 不只是给人看的解释。

它们会进入上下文，影响后续生成。

也就是说，模型写下的每一步推理，都会成为下一步推理的条件。

从内部轨迹看，这相当于给模型更多采样点：

一步跳过去：轨迹短，容易跳错。分多步走：轨迹长，可以调整方向。

但这也解释了另一个现象：

不是越长的思维链越好。

如果推理轨迹在健康流形上展开，多写 token 有用。

如果模型已经偏离了方向，多写 token 只是在错误空间里越走越远。

这就是为什么有些 AI 看起来“想了很久”，最后仍然胡说。

它不是没有计算。

它是在错误的结构里计算。

所以，推理能力的关键不只是：

想多久？

而是：

沿着什么结构想？想的过程中有没有保留关键信息？能不能发现自己走偏？

九、验证在哪里：另一条研究线

讲到这里，会自然冒出一个问题：

如果推理是一条内部轨迹，那模型怎么知道自己走对了？

这也是只谈内部流形时，最容易被略过的地方。

“推理流形”这篇论文主要看内部几何。

它没有真正解决验证问题。

它没有告诉我们：

哪一步推理是对的？哪一步开始错了？模型能不能自己发现？能不能修正？

这些问题属于另一条研究线。

第一条线，是 思维链（Chain of Thought）。

它的想法很朴素：

不要让模型直接给答案。让它把中间步骤写出来。

这能提升很多复杂任务的表现。

但它也有问题。

模型写出来的步骤，不一定是真的内部计算过程。

它可能是解释。

也可能是包装。

甚至可能是一条看起来很合理、其实从中间就错了的路。

第二条线，是 自洽性（self-consistency）。

既然单条思维链可能走错，那就让模型走多条路。

同一道题，采样出多条推理路径；看最后答案是否汇聚；多数一致的答案更可信。

这有点像让几个学生独立解同一道题。

如果他们用不同路径得到同一个结果，可信度会上升。

但它仍然没有真正检查每一步。

第三条线，是 过程监督（process supervision）。

这比只看最终答案更进一步。

它不是只问：

最后答对了吗？

而是问：

每一步推理是否合理？哪一步开始偏了？

这条线很重要。

因为长推理最怕的不是最后一步错。

而是第三步已经错了，第十步还在一本正经地继续推。

第四条线，是 树状思考（Tree of Thoughts）。

如果思维链是一条路，树状思考就是多岔路搜索。

提出几个候选步骤；评估它们；保留更有希望的分支；继续展开。

这更接近人类做难题时的感觉。

我们不是一条线走到底。

我们会试探、回退、换路、剪枝。

第五条线，是 DeepSeek-R1 这类 可验证强化学习。

这条线的核心是：

只要答案可以自动验证，就可以用强化学习奖励模型走出更好的推理行为。

数学题、代码题、形式化证明、部分科学问题，都有这种潜力。

这也解释了为什么“可验证数据”会变得这么重要。

验证不是锦上添花。

验证本身就是下一代推理能力的训练信号。

所以，我们可以把当前研究版图分成两层：

外部层：答案、步骤、搜索、验证、奖励。内部层：隐藏状态、轨迹、流形、信息体积。

DeepSeek-R1 这类工作更多在外部层：

怎样奖励模型想得更好？

推理流形这篇论文更多在内部层：

当模型看起来在想时，内部结构是什么形状？

两者不是互相替代。

它们正好互补。

一个告诉我们怎么训练和筛选推理。

一个提醒我们去看推理在模型内部怎样成形。

十、启发在哪里：prompt 不是咒语，是轨道设计

这也能重新解释 prompt。

很多人把 prompt 看成咒语。

写对了，AI 就灵。

写错了，AI 就笨。

但从推理流形的角度看，prompt 更像是在给模型设置初始条件和约束。

你问：

解释一下这个问题。

模型可能走向科普讲解。

你问：

请像审稿人一样，指出这个论证里最薄弱的地方。

模型会被推向批判性路径。

你问：

先列假设，再逐步推导，最后给出不确定性。

模型会被推向更结构化的推理轨迹。

这不是魔法。

它是在高维空间里改变模型要走的路。

这也能接上萨丕尔-沃尔夫假说。

在人类那里，语言结构会影响人怎样组织世界经验。

在 AI 这里，prompt 和上下文结构会影响模型怎样组织当前推理。

但要注意，prompt 不是万能钥匙。

它不能凭空创造底座模型没有的表达能力。

也不能保证模型一定进入健康推理流形。

它能做的是：

把模型已有的能力，引向某种更合适的内部组织方式。

这就是为什么一个好 prompt 常常不是“说得更凶”，而是：

限定角色明确目标给出评价标准要求分步暴露约束允许说不知道要求检查反例

好的 prompt，不是命令模型“变聪明”。

而是帮它少走弯路。

十一、还有一条路：不把推理都写成文字

还有一个方向，能补上这篇论文的另一块空白。

现在很多推理模型会把思考写成文字。

但人类思考并不总是这样。

你解一道几何题时，脑中可能先出现图形。

你写代码时，可能先有一种结构感。

你判断一个人说话是否真诚时，很多线索甚至还没变成语言。

所以现在有一类研究在问：

推理一定要展开成文字 token 吗？

这就是所谓潜空间推理（latent reasoning）。

其中一个代表方向叫 Coconut，也就是 Chain of Continuous Thought。

它让模型在连续潜空间里做一部分“内部思考”，不急着把每一步都翻译成自然语言。

这件事和推理流形很容易接上。

如果模型内部本来就在某种低维流形上运动，那么也许未来的推理不一定每一步都要写出来。

它可能会变成：

一部分推理写成文字，便于人类检查；一部分推理留在 latent space，便于模型高效计算；关键节点再拿出来验证。

这听起来更接近真实的认知。

我们也不是把脑中每一个中间表征都说出口。

但这里有一个代价：

越多推理留在内部，越难被人类审查。

所以 latent reasoning 和 process supervision 之间，会形成一个长期张力。

效率想把推理藏回内部。

安全和可验证性又要求它把关键步骤暴露出来。

这也是为什么“推理机制”不会只靠一篇流形论文结束。

它会同时牵出：

内部几何外部验证潜空间计算机制解释人类可监督性

这些线要合在一起，才更接近完整答案。

十二、这能压缩模型、减少参数、提升效率吗？

这是一个非常自然的问题。

既然推理轨迹会落在低维流形上，那是不是说明：

模型其实不用那么大？参数可以大幅减少？推理可以便宜很多？

答案要分两层。

第一层：

这篇论文本身，没有给出直接的压缩配方。

它没有说：

按这个公式剪枝；按这个流形蒸馏；按这个维度减少参数。

它做的是诊断，不是工程压缩算法。

第二层：

但它确实给压缩和效率研究提供了一个很好的方向感。

因为它暗示了一件事：

模型的全部参数空间很大，但每次具体推理真正活跃的有效自由度可能很小。

这和我们之前讲 MoE、知识蒸馏、彩票假说时的直觉是一致的。

大模型像一个巨大的城市。

但每一次解决问题，并不是整座城市一起移动。

真正被走过的，可能只是几条路、几个路口、几个功能区。

那工程上就会出现几个可能方向。

第一，用它做 压缩后的健康检查。

比如我们把一个大模型蒸馏成小模型。

小模型 benchmark 看起来还可以。

但它的内部推理轨迹是不是还保持：

足够表达能力适度低维收缩非退化信息体积

这可以成为一种新检查。

第二，用它指导 低秩和稀疏计算。

如果某些任务的推理确实只需要少数有效方向，那么 LoRA、MoE、稀疏激活、动态路由这类方法，就不是单纯省钱技巧。

它们可能是在工程上追踪同一个事实：

能力存在于大空间里；使用能力时，只激活一小部分结构。

第三，用它帮助做 推理时自适应计算。

有些问题一眼就能回答。

有些问题必须展开长推理。

如果内部轨迹已经显示模型进入稳定结构，也许可以少算一点。

如果轨迹发散、信息体积异常、或者结构不稳，也许就该让模型继续思考、换路径、调用 verifier。

这会把“多想一会儿”从一个固定开关，变成动态决策。

但这里也要小心。

低维推理轨迹并不等于小模型一定够用。

因为论文同时强调了 D_world。

也就是说，健康推理需要一个足够丰富的高维底座。

你可以在具体任务中走低维路。

但这条路之所以能存在，是因为背后有足够大的世界表示空间撑着。

所以更成熟的判断是：

推理流形不直接告诉我们“模型可以变小”，它告诉我们“大模型内部可能存在更小、更活跃、更可诊断的有效计算结构”。

这对压缩有启发。

但它不是一张已经写好的瘦身食谱。

十三、它能帮助我们理解泛化吗？

我觉得可以。

但同样要加一个限定：

它能帮助理解泛化的内部形状，不能单独解释泛化的全部来源。

什么叫泛化？

就是模型没有见过一模一样的问题，却能处理。

如果只从“记忆”角度看，这件事很难解释。

因为没见过，为什么会？

但从“结构”角度看，事情就清楚一点。

模型不是把每道题单独存在脑子里。

它更可能学到了一些可迁移结构：

变量关系因果顺序约束条件数量变化语法角色函数调用模式证明套路错误检查方式

当一个新问题出现时，模型要做的不是从记忆库里找同款。

而是把新问题投影到某个可用结构上。

这就像你学会了“方程”。

你不是记住每一道买苹果、买铅笔、买车票的题。

你是学会了：

把未知量命名；把关系写出来；按规则变形；检查结果。

题目换了，结构还在。

从推理流形角度看，泛化可能就是：

面对没见过的输入，模型仍然能把内部轨迹收束到一条有用的结构路线上。

这也解释了为什么“数据多”不是全部。

数据要能帮助模型形成可迁移结构。

如果数据只是大量重复、噪音、伪相关，模型可能记住很多，却不一定泛化。

如果数据能暴露变量、反例、难度梯度、长尾情况和可验证反馈，它就更可能把模型推向稳定结构。

这也接回上一篇《AI 吃完互联网之后，还能继续变聪明吗？》。

下一代 AI 需要的，可能不只是更多文本。

而是更多能让模型形成结构、验证结构、修正结构的经验。

所以，泛化的一个可能解释是：

大模型先用高维空间容纳世界，再在具体任务中折出低维结构。新问题只要能落到相似结构上，就有机会被处理。

这不是完整答案。

但它比“模型只是背答案”更接近真实。

十四、AI 性格、推理和结构，其实是一件事

现在，我们可以把 《谁在决定 AI 的性格？》 接回来。

那篇文章讲：

AI 的“性格”不是灵魂。

它是预训练、SFT、RLHF、DPO、系统提示词、工具权限、产品目标和用户反馈共同塑造出来的行为倾向。

现在这篇补上另一半：

AI 的“推理”也不是一个神秘灵魂突然醒来。

它是在模型内部形成受约束的信息结构。

性格，是输出倾向的结构。

推理，是内部轨迹的结构。

Prompt，是当前上下文的结构。

Agent，是行动循环的结构。

世界模型，是物理经验的结构。

而刚刚那篇“三巨头”的文章，其实讲的是另一种结构：

当 AI 从回答问题走向采取行动，它有没有后果结构？

这就是为什么 “Structure is all you need” 这个说法很有意思。

当然，严格说，原论文叫 《Attention Is All You Need》。

Attention 解决的是：

当前 token 应该关注哪些 token？

而 structure 更大的问题是：

信息应该怎样组织起来，才能产生稳定能力？

从这个角度看，现代 AI 的很多东西都在走向同一个方向：

Embedding：把词放进结构化空间 Attention：在上下文中重组关系 MLP：存储和调用模式 CoT：把推理展开成时间结构 RLHF：把偏好变成行为结构 Agent：把观察和行动变成循环结构 World Model：把经验变成可预演结构 Reasoning Manifold：把内部推理压成几何结构

也许 AI 的核心问题，正在从：

模型有多大？

转向：

结构组织得好不好？

十五、这篇论文不能被过度神化

最后要冷静一点。

“推理流形”不是一个已经终结争论的理论。

它更像一个有启发性的观察框架。

我们不能从一篇论文直接跳到：

AI 已经像人一样思考。

也不能说：

推理就是流形坍塌，别的都不重要。

论文自己也强调，它研究的是当代自回归语言模型中的推理动态。

它用最后 token 的隐藏状态作为轨迹代理。

它的诊断指标是描述性的、相关性的，不等于因果证明。

多模态系统、机器人、非自回归模型是不是也遵循类似结构，还需要继续研究。

所以，成熟的读法不是神化它。

而是把它放到我们的知识版图里：

next-token prediction 解释训练目标； Transformer 解释架构； CoT / RL 解释推理行为怎样被激发； process supervision / verifier 解释推理怎样被检查； latent reasoning 解释一部分思考怎样留在内部； RLHF 解释性格怎样被塑形；推理流形尝试解释推理时内部结构怎样组织。

它不是替代前面所有解释。

它是在更内部的层次，补上一块几何图像。

尾声：压缩之后，信息还活着

我们可以把整篇文章压缩成四句话：

大语言模型表面上是在预测下一个 token。

但推理时，内部隐藏状态会形成一条高维轨迹。
好的推理不是在高维空间里乱撞，而是收缩到低维结构上。
但压缩不能把信息压死，真正健康的推理是在低维结构里保留足够信息。

所以，推理是一种坍塌吗？

可以说是。

但更准确地说：

推理不是崩塌，而是成形。

混乱的可能性，被上下文压成少数方向。

无关的联想被压下去。

本公众号延伸阅读

《图灵奖三巨头的三种 AI 态度：失控、自主目标与后果感》
：理解 AI 风险怎样从错误答案走向错误行动。
《马尔可夫的幽灵——从预测下一个词到预测下一步行动》
：理解 next-token prediction 怎样接到行动轨迹。
《DeepSeek-R1：一个模型如何学会“思考”》
：理解推理模型为什么要花更多 token 思考。
《压缩即是全部》
：理解为什么“压缩”是数学和 AI 的共同线索。
《为什么 QKV 长这样》
：理解上下文怎样让词义从叠加可能中收窄。
《谁在决定 AI 的性格？》
：理解训练和反馈怎样塑造模型的输出倾向。

参考资料

Yanbiao Ma et al., Reasoning emerges from constrained inference manifolds in large language models, arXiv:2605.08142, 2026.
DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, 2025.
Jason Wei et al., Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, 2022.
Xuezhi Wang et al., Self-Consistency Improves Chain of Thought Reasoning in Language Models, 2022.
Hunter Lightman et al., Let's Verify Step by Step, 2023.
Shunyu Yao et al., Tree of Thoughts: Deliberate Problem Solving with Large Language Models, 2023.
Shibo Hao et al., Training Large Language Models to Reason in a Continuous Latent Space, 2024.
Ashish Vaswani et al., Attention Is All You Need, 2017.
Edward J. Hu et al., LoRA: Low-Rank Adaptation of Large Language Models, 2021.
Armen Aghajanyan, Sonal Gupta, Luke Zettlemoyer, Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning, 2021.
Nelson Elhage et al., A Mathematical Framework for Transformer Circuits, 2021.

文章精选：
1.编程时代已终结！ClaudeCode创始人断言：编程就像发短信一样自然，首曝个人最新工作流：自创Sloop循环，单日PR达150！传统SaaS护城河崩掉
2.HTML死了！前OpenAI工程师掀起网页革命：用AI将整个屏幕变成无限直播像素流，无一行html代码，网友：传统Web开发结束，前端真要失业了！
3.诺奖得主DeepMind掌门人最新访谈晓读：AI创业者护城河？AGI只差1-2个关键想法，最缺的不是算力，是这个
4.GPT之父把AI扔回1930年：没见过一行代码，却「发明」了Python！
5.图灵奖得主查尔斯·巴赫曼：他在数据未成海时，便为人工智能修好了岸
6.图灵奖得主理查德·萨顿（Richard Sutton）最新演讲：大模型只是一时狂热，AI的真正时代还没开始
7.图灵奖得主Bengio预言o1无法抵达AGI！Nature权威解读AI智能惊人进化，终极边界就在眼前
8.图灵奖得主、强化学习之父Rich Sutton：大语言模型是一个错误的起点
9.图灵奖得主杨立昆：大语言模型缺乏对物理世界的理解和推理能力，无法实现人类水平智能
10.压缩即是全部 —— 菲尔兹奖得主 Michael Freedman 给数学和 AI 的一封信

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。