推理是一种坍塌吗?——AI 思考时,内部到底发生了什么
点击上方“图灵人工智能”,选择“星标”公众号
您想知道的人工智能干货,第一时间送达


如果大语言模型只是预测下一个 token,为什么它会表现出推理能力?这篇文章从一篇新论文出发,解释模型推理时隐藏状态如何从高维空间自组织到低维流形,也说明这项研究的边界:它更像一次内部动力学体检,而不是推理理论的终局。
如果大语言模型只是预测下一个 token,为什么会表现出推理?这篇从推理流形论文出发,把低维流形、维度坍塌、信息体积翻译成一个直觉:好的推理不是把世界压扁,而是把混乱折成一条还能走的路。
① 文字接龙怎么长出推理 → ② 什么是推理流形 → ③ 坍塌为什么不够 → ④ 压缩即智能的新补丁 → ⑤ Prompt 和结构
开场:文字接龙,怎么长出了推理?
如果你一路读这个公众号,会发现我们反复讲过一句话:
大语言模型(LLM)的基本任务,是预测下一个 token。
给它前文:
今天的天气很
它预测后面可能是:
好 / 冷 / 热 / 糟糕
给它前文:
如果 A 大于 B,B 大于 C,那么
它预测后面更可能是:
A 大于 C
这就是 next-token prediction。
听起来很朴素。
甚至有点扫兴。
因为我们真正关心的是:
它为什么会解题? 它为什么会写代码? 它为什么会反思? 它为什么能一步步推理?
如果 AI 只是文字接龙,那推理从哪里来?
这是所有理解大模型的人都会撞上的问题。
上一篇我们讲了图灵奖三巨头的三种 AI 态度:失控、自主目标与后果感。
那篇文章把问题推向了后果空间:
AI 开始行动之后,能不能预演自己的后果?
这篇文章把镜头拉回模型内部:
AI 还在生成 token 的时候,所谓“推理”到底是什么形状?
在 《马尔可夫的幽灵》 里,我们讲过:
从预测下一个字母,到预测下一个词,再到预测下一步行动,中间有一条连续的线。
在 《DeepSeek-R1:一个模型如何学会“思考”》 里,我们又讲过:
当模型被奖励“答对”时,它会学会把更多 token 用在中间推理上,像在草稿纸上演算。
但这些解释仍然有一个缺口:
推理时,模型内部到底发生了什么?
不是输出文本看起来像推理。
不是 benchmark 分数提高了。
而是模型在隐藏层里,怎样组织信息?
最近有一篇论文提供了一个很有意思的观察框架:
Reasoning emerges from constrained inference manifolds in large language models
可以粗略翻译成:
推理从大语言模型中受约束的推理流形里涌现出来。
这个标题很硬。
但它背后的直觉,其实可以讲清楚:
AI 推理时,不是在高维空间里乱撞。它会把内部状态压缩到某种低维结构上。
更重要的是:
好的推理不是压得越低越好,而是在压缩之后还保留足够的信息。
这句话,会给我们一直讲的“压缩即智能”补上一块重要拼图。
一、先说清楚:这不是推理理论的终局
这篇论文很有启发。
但如果要认真读,第一件事不是兴奋,而是先把它放对位置。
它不是在说:
我从数学第一性原理证明了 AI 为什么会推理。
它更像是在说:
我们把模型推理时的隐藏状态拿出来, 看它们在高维空间里怎样运动, 然后发现了一种稳定的几何现象。
所以,它首先是一篇实验性很强的内部动力学研究。
它有公式。
但这些公式不是牛顿定律那种“从此以后万物按这个推导”的公式。
更准确地说,它提出了一套诊断指标。
就像医生给人做体检:
血压 心率 血糖 血氧
这些指标不能单独解释“生命是什么”。
但它们能告诉你,一个身体是不是处在比较健康的状态。
论文做的事也类似。
它不直接回答:
模型为什么一定会得到正确答案?
它更关心:
模型在推理时,内部运动是不是处在一种比较健康的结构状态?
这点很关键。
因为如果把它过度神化,就会把一篇有意思的论文读坏。
如果把它看成“推理机制已经被破解”,那太早。
如果把它看成“我们终于有了一种观察推理内部形状的方法”,那就非常值得写。
二、不要只看答案,要看内部轨迹
我们通常怎么评价 AI 会不会推理?
很简单:
题目给它。 答案拿来。 对了加分。 错了扣分。
比如数学题、代码题、逻辑题、选择题。
这种评价当然有用。
但它有一个问题:
它只看结果,不看过程。
两个模型都答对了,内部可能完全不同。
一个可能真的形成了稳定推理。
另一个可能只是撞上了训练集里见过的模式。
两个模型都答错了,也可能完全不同。
一个可能方向对了,只是最后算错。
另一个可能从一开始就在胡说。
所以,如果我们想研究“推理本身”,不能只盯着输出文本。
我们要看模型内部。
大语言模型每生成一个 token,内部每一层都会产生一个隐藏状态。
你可以把它想成模型当时的“脑中坐标”。
这个坐标不是二维,也不是三维。
它可能是几千维。
比如某一层的隐藏向量:
[0.12, -1.37, 0.08, ..., 2.41]
一长串数字。
一个 token 对应一个点。
生成下一个 token,又是一个点。
模型一步步推理时,这些点会连成一条轨迹。
第 1 步隐藏状态 → 第 2 步隐藏状态 → 第 3 步隐藏状态 → ...
从外面看,是模型在写字。
从里面看,是一个点在高维空间里移动。
论文研究的,就是这些轨迹。
它问的是:
当模型进入推理状态时,这条高维轨迹有没有某种结构?
论文报告说:有。
而且在多个模型和任务上,这种结构相当明显。
三、什么是流形:把高维混乱折成一条路
“流形”这个词听起来很数学。
我们先不从定义开始。
想象一张纸。
它本来是二维的。
你可以在纸上画一只蚂蚁的路线。
现在你把这张纸揉弯、折起、卷成一个复杂形状,塞进三维空间。
从外面看,它在三维空间里弯弯绕绕。
但对纸面上的蚂蚁来说,它仍然只是在一张二维纸上走。
这就是流形的直觉:
一个低维结构,嵌在更高维的空间里。
地球表面也是这样。
地球在三维空间里。
但我们走路时,大多数时候只在二维表面上移动。
经纬度两个数,就能定位一个地方。
同样,模型的隐藏空间可能有几千维。
但推理时,真正被用到的自由度,可能远远少于几千维。
它不像烟雾一样向所有方向散开。
它更像沿着某张被折叠进高维空间的纸面移动。
这张“纸面”,就是推理流形。
更形象一点:
高维空间:整座城市的所有可能位置 推理流形:模型真正会走的那几条路
推理不是在所有可能方向里乱跑。
推理是在高维空间里形成了一条受约束的路。
这就是论文最有意思的观察:
推理时的内部表征,会自发收缩到低维流形上。
注意几个关键词。
第一,自发。
不是工程师手工规定模型只能走这条路。
而是训练之后,模型在推理时自然形成这种结构。
第二,低维。
模型的表示空间很大,但推理轨迹的有效维度很小。
第三,推理时。
它不是说模型所有知识都低维。
模型的词表、概念、世界知识仍然需要很高的表达能力。
低维结构是在具体推理过程中出现的。
四、坍塌:从无数可能,压成少数方向
论文里一个很重要的词,是 dimensional collapse。
可以翻译成“维度坍塌”。
这里的“坍塌”不要理解成坏掉。
它更像一团散开的可能性,被推理任务压成少数关键方向。
比如你看到一道题:
小明有 3 个苹果,又买了 5 个苹果,现在有几个?
一开始,“苹果”这个词可以激活很多东西:
水果 颜色 价格 营养 公司品牌 童话 牛顿 手机
但在这个上下文里,真正相关的是数量。
于是模型内部要做一件事:
把无关方向压下去,把相关方向留下来。
这就是推理中的压缩。
如果什么都不压缩,模型会被无数联想淹没。
如果你问“苹果有几个”,它却同时想起乔布斯、牛顿、果园、营养成分、iPhone 发布会,它就无法稳定计算。
好的推理一定需要收窄。
它要从混乱的可能性里选出一个子空间:
这道题现在主要和数量有关。
这和 《为什么 QKV 长这样》 里讲过的“上下文让词义坍缩”很像。
一个词的 Embedding 里有很多可能含义。
Attention 根据上下文,把它推向当前最相关的方向。
现在,推理流形把这个想法推进了一层:
不只是词义会在上下文中收窄,整个推理过程也会在内部空间中收窄。
这就是“推理是一种坍塌”的第一层意思。
五、但坍塌不是越狠越好
到这里,很容易产生一个错误理解:
既然推理需要低维坍塌,那是不是越低维越好?
不是。
这恰恰是论文最值得写的地方。
低维结构是必要的。
但低维结构不够。
如果一个模型把所有东西都压成一条死线,甚至压成一个点,那它确实“不乱”了。
但它也没法思考了。
想象一个学生解题。
完全不压缩,他会发散到一堆无关想法:
苹果是什么颜色? 小明是谁? 买苹果贵不贵? 牛顿为什么被苹果砸?
这叫散。
但压缩过头,他只剩一句机械口号:
遇到数字就相加。
这也不行。
因为下一题可能是:
小明有 8 个苹果,吃掉 3 个,还剩几个?
如果他只会“数字相加”,就会错。
所以,健康推理要在两个坏状态之间找到平衡:
太散:信息到处跑,没有结构。 太死:结构很紧,但没有足够信息。
论文把这个说得更精确:
有效推理需要三个条件。
第一,足够表达能力。 模型底层空间要足够丰富,能表示复杂世界。 第二,自发流形压缩。 推理时不能在高维空间里乱散,要形成低维结构。 第三,非退化信息体积。 压缩后的空间里,还要保留足够多有用变化,不能塌成空壳。
这三个条件缺一不可。
只要表达能力,没有压缩,模型会发散。
只有压缩,没有信息,模型会僵死。
只有信息,没有结构,模型会混乱。
所以,真正的推理不是简单“坍塌”。
更准确地说:
推理是在高表达空间里,把信息压缩进一个仍然有生命的低维结构。
六、论文里真正硬的地方:三个量和一个公式
到这里,我们可以把论文自己的技术骨架讲出来。
它不是只写了一个漂亮比喻。
它真正尝试测量三个东西。
第一个叫 D_world。
可以理解成:
模型的世界表达能力有多丰富?
论文用静态词表 Embedding 的内在维度来估计它。
意思是:模型底层空间能不能容纳足够复杂的世界概念。
如果这个底子太薄,后面推理再怎么收缩,也是在贫瘠的空间里收缩。
第二个叫 D_stim。
可以理解成:
模型被题目刺激之后,推理轨迹实际用了多少自由度?
这个量越高,说明轨迹越散。
但它也不能无限低。
低到没有变化,就不是推理,而是僵死。
第三个叫 V,也就是信息体积。
可以理解成:
压缩后的推理轨迹里,还保留了多少有用变化?
这就是论文最有价值的修正:
只看维度不够。 还要看低维结构里有没有信息。
最后,它把三者合成一个诊断量:
H = log(D_world) × V / exp(ε × D_stim)
这个公式的意思很直观。
log(D_world):底层世界表达能力越强越好,但不是无限支配一切。 V:压缩后保留的信息越多越好。 exp(ε × D_stim):推理轨迹太散,要被惩罚。
所以它奖励的是一种状态:
底座足够宽; 推理过程足够收敛; 收敛之后信息仍然活着。
这里最容易误解的是:
H 不是“聪明公式”。
它不是说你把这个公式塞进训练代码,模型就会变聪明。
它更像一个内部体检分数:
不看答案标签; 不看 benchmark 正确率; 只看隐藏状态的运动形状; 然后判断这种运动是不是接近健康推理的结构。
论文报告说,这个结构指标和多个推理 benchmark 的表现有很强相关性。
这很有意思。
但相关性不是因果证明。
它告诉我们:
强推理模型常常呈现这种内部结构。
它还没有证明:
只要人工制造这种结构,就一定得到强推理模型。
这一步,才是后续研究真正难的地方。
七、压缩即智能,但不是压扁
这对我们之前的“压缩即智能”很重要。
如果你只听到“压缩”两个字,很容易误解成:
把信息越压越少,模型就越聪明。
不对。
压缩不是把世界压扁。
压缩是把世界组织起来。
一本教材不是把知识删掉。
它是把一堆经验、实验、定理、例子、习题,组织成一个人能学习的结构。
一个公式不是把物理现象消灭。
它是把无数现象背后的共同规律提出来。
一张地图不是把城市变少。
它是保留道路、方向、距离和边界,舍弃树叶、尘土和每块砖的纹理。
好的压缩,丢掉的是噪音。
坏的压缩,丢掉的是灵魂。
LLM 推理也是这样。
一个强模型不是把所有概念都压成一个套路。
它是在具体任务中临时形成一张简洁的内部地图:
哪些变量重要? 哪些关系成立? 哪些步骤必须保留? 哪些联想应该放下? 哪里需要检查? 哪里可能出错?
这张地图越紧凑,推理越不容易散。
这张地图越有信息,推理越不容易空。
这就是“流形”给我们的直觉:
推理不是在知识海洋里漂浮,而是在高维空间里折出一条可以走的路。
八、推理模型为什么要多写 token?
现在我们再回看推理模型。
为什么 DeepSeek-R1 这类模型,要在回答前写那么长的 <think>?
表面看,是多写了一段推理文本。
本质上,是给模型更多时间,让内部状态沿着推理轨迹走得更充分。
普通模型像这样:
问题 → 直接答案
推理模型像这样:
问题 → 中间状态 1 → 中间状态 2 → 中间状态 3 → 检查 → 答案
这些中间 token 不只是给人看的解释。
它们会进入上下文,影响后续生成。
也就是说,模型写下的每一步推理,都会成为下一步推理的条件。
从内部轨迹看,这相当于给模型更多采样点:
一步跳过去:轨迹短,容易跳错。 分多步走:轨迹长,可以调整方向。
但这也解释了另一个现象:
不是越长的思维链越好。
如果推理轨迹在健康流形上展开,多写 token 有用。
如果模型已经偏离了方向,多写 token 只是在错误空间里越走越远。
这就是为什么有些 AI 看起来“想了很久”,最后仍然胡说。
它不是没有计算。
它是在错误的结构里计算。
所以,推理能力的关键不只是:
想多久?
而是:
沿着什么结构想? 想的过程中有没有保留关键信息? 能不能发现自己走偏?
九、验证在哪里:另一条研究线
讲到这里,会自然冒出一个问题:
如果推理是一条内部轨迹, 那模型怎么知道自己走对了?
这也是只谈内部流形时,最容易被略过的地方。
“推理流形”这篇论文主要看内部几何。
它没有真正解决验证问题。
它没有告诉我们:
哪一步推理是对的? 哪一步开始错了? 模型能不能自己发现? 能不能修正?
这些问题属于另一条研究线。
第一条线,是 思维链(Chain of Thought)。
它的想法很朴素:
不要让模型直接给答案。 让它把中间步骤写出来。
这能提升很多复杂任务的表现。
但它也有问题。
模型写出来的步骤,不一定是真的内部计算过程。
它可能是解释。
也可能是包装。
甚至可能是一条看起来很合理、其实从中间就错了的路。
第二条线,是 自洽性(self-consistency)。
既然单条思维链可能走错,那就让模型走多条路。
同一道题,采样出多条推理路径; 看最后答案是否汇聚; 多数一致的答案更可信。
这有点像让几个学生独立解同一道题。
如果他们用不同路径得到同一个结果,可信度会上升。
但它仍然没有真正检查每一步。
第三条线,是 过程监督(process supervision)。
这比只看最终答案更进一步。
它不是只问:
最后答对了吗?
而是问:
每一步推理是否合理? 哪一步开始偏了?
这条线很重要。
因为长推理最怕的不是最后一步错。
而是第三步已经错了,第十步还在一本正经地继续推。
第四条线,是 树状思考(Tree of Thoughts)。
如果思维链是一条路,树状思考就是多岔路搜索。
提出几个候选步骤; 评估它们; 保留更有希望的分支; 继续展开。
这更接近人类做难题时的感觉。
我们不是一条线走到底。
我们会试探、回退、换路、剪枝。
第五条线,是 DeepSeek-R1 这类 可验证强化学习。
这条线的核心是:
只要答案可以自动验证, 就可以用强化学习奖励模型走出更好的推理行为。
数学题、代码题、形式化证明、部分科学问题,都有这种潜力。
这也解释了为什么“可验证数据”会变得这么重要。
验证不是锦上添花。
验证本身就是下一代推理能力的训练信号。
所以,我们可以把当前研究版图分成两层:
外部层:答案、步骤、搜索、验证、奖励。 内部层:隐藏状态、轨迹、流形、信息体积。
DeepSeek-R1 这类工作更多在外部层:
怎样奖励模型想得更好?
推理流形这篇论文更多在内部层:
当模型看起来在想时,内部结构是什么形状?
两者不是互相替代。
它们正好互补。
一个告诉我们怎么训练和筛选推理。
一个提醒我们去看推理在模型内部怎样成形。
十、启发在哪里:prompt 不是咒语,是轨道设计
这也能重新解释 prompt。
很多人把 prompt 看成咒语。
写对了,AI 就灵。
写错了,AI 就笨。
但从推理流形的角度看,prompt 更像是在给模型设置初始条件和约束。
你问:
解释一下这个问题。
模型可能走向科普讲解。
你问:
请像审稿人一样,指出这个论证里最薄弱的地方。
模型会被推向批判性路径。
你问:
先列假设,再逐步推导,最后给出不确定性。
模型会被推向更结构化的推理轨迹。
这不是魔法。
它是在高维空间里改变模型要走的路。
这也能接上萨丕尔-沃尔夫假说。
在人类那里,语言结构会影响人怎样组织世界经验。
在 AI 这里,prompt 和上下文结构会影响模型怎样组织当前推理。
但要注意,prompt 不是万能钥匙。
它不能凭空创造底座模型没有的表达能力。
也不能保证模型一定进入健康推理流形。
它能做的是:
把模型已有的能力,引向某种更合适的内部组织方式。
这就是为什么一个好 prompt 常常不是“说得更凶”,而是:
限定角色 明确目标 给出评价标准 要求分步 暴露约束 允许说不知道 要求检查反例
好的 prompt,不是命令模型“变聪明”。
而是帮它少走弯路。
十一、还有一条路:不把推理都写成文字
还有一个方向,能补上这篇论文的另一块空白。
现在很多推理模型会把思考写成文字。
但人类思考并不总是这样。
你解一道几何题时,脑中可能先出现图形。
你写代码时,可能先有一种结构感。
你判断一个人说话是否真诚时,很多线索甚至还没变成语言。
所以现在有一类研究在问:
推理一定要展开成文字 token 吗?
这就是所谓潜空间推理(latent reasoning)。
其中一个代表方向叫 Coconut,也就是 Chain of Continuous Thought。
它让模型在连续潜空间里做一部分“内部思考”,不急着把每一步都翻译成自然语言。
这件事和推理流形很容易接上。
如果模型内部本来就在某种低维流形上运动,那么也许未来的推理不一定每一步都要写出来。
它可能会变成:
一部分推理写成文字,便于人类检查; 一部分推理留在 latent space,便于模型高效计算; 关键节点再拿出来验证。
这听起来更接近真实的认知。
我们也不是把脑中每一个中间表征都说出口。
但这里有一个代价:
越多推理留在内部,越难被人类审查。
所以 latent reasoning 和 process supervision 之间,会形成一个长期张力。
效率想把推理藏回内部。
安全和可验证性又要求它把关键步骤暴露出来。
这也是为什么“推理机制”不会只靠一篇流形论文结束。
它会同时牵出:
内部几何 外部验证 潜空间计算 机制解释 人类可监督性
这些线要合在一起,才更接近完整答案。
十二、这能压缩模型、减少参数、提升效率吗?
这是一个非常自然的问题。
既然推理轨迹会落在低维流形上,那是不是说明:
模型其实不用那么大? 参数可以大幅减少? 推理可以便宜很多?
答案要分两层。
第一层:
这篇论文本身,没有给出直接的压缩配方。
它没有说:
按这个公式剪枝; 按这个流形蒸馏; 按这个维度减少参数。
它做的是诊断,不是工程压缩算法。
第二层:
但它确实给压缩和效率研究提供了一个很好的方向感。
因为它暗示了一件事:
模型的全部参数空间很大, 但每次具体推理真正活跃的有效自由度可能很小。
这和我们之前讲 MoE、知识蒸馏、彩票假说时的直觉是一致的。
大模型像一个巨大的城市。
但每一次解决问题,并不是整座城市一起移动。
真正被走过的,可能只是几条路、几个路口、几个功能区。
那工程上就会出现几个可能方向。
第一,用它做 压缩后的健康检查。
比如我们把一个大模型蒸馏成小模型。
小模型 benchmark 看起来还可以。
但它的内部推理轨迹是不是还保持:
足够表达能力 适度低维收缩 非退化信息体积
这可以成为一种新检查。
第二,用它指导 低秩和稀疏计算。
如果某些任务的推理确实只需要少数有效方向,那么 LoRA、MoE、稀疏激活、动态路由这类方法,就不是单纯省钱技巧。
它们可能是在工程上追踪同一个事实:
能力存在于大空间里; 使用能力时,只激活一小部分结构。
第三,用它帮助做 推理时自适应计算。
有些问题一眼就能回答。
有些问题必须展开长推理。
如果内部轨迹已经显示模型进入稳定结构,也许可以少算一点。
如果轨迹发散、信息体积异常、或者结构不稳,也许就该让模型继续思考、换路径、调用 verifier。
这会把“多想一会儿”从一个固定开关,变成动态决策。
但这里也要小心。
低维推理轨迹并不等于小模型一定够用。
因为论文同时强调了 D_world。
也就是说,健康推理需要一个足够丰富的高维底座。
你可以在具体任务中走低维路。
但这条路之所以能存在,是因为背后有足够大的世界表示空间撑着。
所以更成熟的判断是:
推理流形不直接告诉我们“模型可以变小”,它告诉我们“大模型内部可能存在更小、更活跃、更可诊断的有效计算结构”。
这对压缩有启发。
但它不是一张已经写好的瘦身食谱。
十三、它能帮助我们理解泛化吗?
我觉得可以。
但同样要加一个限定:
它能帮助理解泛化的内部形状,不能单独解释泛化的全部来源。
什么叫泛化?
就是模型没有见过一模一样的问题,却能处理。
如果只从“记忆”角度看,这件事很难解释。
因为没见过,为什么会?
但从“结构”角度看,事情就清楚一点。
模型不是把每道题单独存在脑子里。
它更可能学到了一些可迁移结构:
变量关系 因果顺序 约束条件 数量变化 语法角色 函数调用模式 证明套路 错误检查方式
当一个新问题出现时,模型要做的不是从记忆库里找同款。
而是把新问题投影到某个可用结构上。
这就像你学会了“方程”。
你不是记住每一道买苹果、买铅笔、买车票的题。
你是学会了:
把未知量命名; 把关系写出来; 按规则变形; 检查结果。
题目换了,结构还在。
从推理流形角度看,泛化可能就是:
面对没见过的输入, 模型仍然能把内部轨迹收束到一条有用的结构路线上。
这也解释了为什么“数据多”不是全部。
数据要能帮助模型形成可迁移结构。
如果数据只是大量重复、噪音、伪相关,模型可能记住很多,却不一定泛化。
如果数据能暴露变量、反例、难度梯度、长尾情况和可验证反馈,它就更可能把模型推向稳定结构。
这也接回上一篇《AI 吃完互联网之后,还能继续变聪明吗?》。
下一代 AI 需要的,可能不只是更多文本。
而是更多能让模型形成结构、验证结构、修正结构的经验。
所以,泛化的一个可能解释是:
大模型先用高维空间容纳世界,再在具体任务中折出低维结构。新问题只要能落到相似结构上,就有机会被处理。
这不是完整答案。
但它比“模型只是背答案”更接近真实。
十四、AI 性格、推理和结构,其实是一件事
现在,我们可以把 《谁在决定 AI 的性格?》 接回来。
那篇文章讲:
AI 的“性格”不是灵魂。
它是预训练、SFT、RLHF、DPO、系统提示词、工具权限、产品目标和用户反馈共同塑造出来的行为倾向。
现在这篇补上另一半:
AI 的“推理”也不是一个神秘灵魂突然醒来。
它是在模型内部形成受约束的信息结构。
性格,是输出倾向的结构。
推理,是内部轨迹的结构。
Prompt,是当前上下文的结构。
Agent,是行动循环的结构。
世界模型,是物理经验的结构。
而刚刚那篇“三巨头”的文章,其实讲的是另一种结构:
当 AI 从回答问题走向采取行动, 它有没有后果结构?
这就是为什么 “Structure is all you need” 这个说法很有意思。
当然,严格说,原论文叫 《Attention Is All You Need》。
Attention 解决的是:
当前 token 应该关注哪些 token?
而 structure 更大的问题是:
信息应该怎样组织起来,才能产生稳定能力?
从这个角度看,现代 AI 的很多东西都在走向同一个方向:
Embedding:把词放进结构化空间 Attention:在上下文中重组关系 MLP:存储和调用模式 CoT:把推理展开成时间结构 RLHF:把偏好变成行为结构 Agent:把观察和行动变成循环结构 World Model:把经验变成可预演结构 Reasoning Manifold:把内部推理压成几何结构
也许 AI 的核心问题,正在从:
模型有多大?
转向:
结构组织得好不好?
十五、这篇论文不能被过度神化
最后要冷静一点。
“推理流形”不是一个已经终结争论的理论。
它更像一个有启发性的观察框架。
我们不能从一篇论文直接跳到:
AI 已经像人一样思考。
也不能说:
推理就是流形坍塌,别的都不重要。
论文自己也强调,它研究的是当代自回归语言模型中的推理动态。
它用最后 token 的隐藏状态作为轨迹代理。
它的诊断指标是描述性的、相关性的,不等于因果证明。
多模态系统、机器人、非自回归模型是不是也遵循类似结构,还需要继续研究。
所以,成熟的读法不是神化它。
而是把它放到我们的知识版图里:
next-token prediction 解释训练目标; Transformer 解释架构; CoT / RL 解释推理行为怎样被激发; process supervision / verifier 解释推理怎样被检查; latent reasoning 解释一部分思考怎样留在内部; RLHF 解释性格怎样被塑形; 推理流形尝试解释推理时内部结构怎样组织。
它不是替代前面所有解释。
它是在更内部的层次,补上一块几何图像。
尾声:压缩之后,信息还活着
我们可以把整篇文章压缩成四句话:
大语言模型表面上是在预测下一个 token。
但推理时,内部隐藏状态会形成一条高维轨迹。
好的推理不是在高维空间里乱撞,而是收缩到低维结构上。
但压缩不能把信息压死,真正健康的推理是在低维结构里保留足够信息。
所以,推理是一种坍塌吗?
可以说是。
但更准确地说:
推理不是崩塌,而是成形。
混乱的可能性,被上下文压成少数方向。
无关的联想被压下去。
相关的变量被保留下来。
中间步骤沿着一条受约束的路展开。
如果这条路太散,模型会迷路。
如果这条路太死,模型会僵住。
只有当它既紧凑,又有信息,推理才会变得稳定。
这也许就是 AI 推理最迷人的地方。
它当然还是数学。
是向量、矩阵、Softmax、隐藏状态、概率分布。
但当这些东西在足够大的模型里被训练到极致时,它们会自发形成结构。
而结构,正是理解的另一种名字。
本公众号延伸阅读
- 《图灵奖三巨头的三种 AI 态度:失控、自主目标与后果感》
:理解 AI 风险怎样从错误答案走向错误行动。 - 《马尔可夫的幽灵——从预测下一个词到预测下一步行动》
:理解 next-token prediction 怎样接到行动轨迹。 - 《DeepSeek-R1:一个模型如何学会“思考”》
:理解推理模型为什么要花更多 token 思考。 - 《压缩即是全部》
:理解为什么“压缩”是数学和 AI 的共同线索。 - 《为什么 QKV 长这样》
:理解上下文怎样让词义从叠加可能中收窄。 - 《谁在决定 AI 的性格?》
:理解训练和反馈怎样塑造模型的输出倾向。
参考资料
Yanbiao Ma et al., Reasoning emerges from constrained inference manifolds in large language models, arXiv:2605.08142, 2026. DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, 2025. Jason Wei et al., Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, 2022. Xuezhi Wang et al., Self-Consistency Improves Chain of Thought Reasoning in Language Models, 2022. Hunter Lightman et al., Let's Verify Step by Step, 2023. Shunyu Yao et al., Tree of Thoughts: Deliberate Problem Solving with Large Language Models, 2023. Shibo Hao et al., Training Large Language Models to Reason in a Continuous Latent Space, 2024. Ashish Vaswani et al., Attention Is All You Need, 2017. Edward J. Hu et al., LoRA: Low-Rank Adaptation of Large Language Models, 2021. Armen Aghajanyan, Sonal Gupta, Luke Zettlemoyer, Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning, 2021. Nelson Elhage et al., A Mathematical Framework for Transformer Circuits, 2021.

文章精选:
1.编程时代已终结!ClaudeCode创始人断言:编程就像发短信一样自然,首曝个人最新工作流:自创Sloop循环,单日PR达150!传统SaaS护城河崩掉
2.HTML死了!前OpenAI工程师掀起网页革命:用AI将整个屏幕变成无限直播像素流,无一行html代码,网友:传统Web开发结束,前端真要失业了! 3.诺奖得主DeepMind掌门人最新访谈晓读:AI创业者护城河?AGI只差1-2个关键想法,最缺的不是算力,是这个 4.GPT之父把AI扔回1930年:没见过一行代码,却「发明」了Python! 5.图灵奖得主查尔斯·巴赫曼:他在数据未成海时,便为人工智能修好了岸 6.图灵奖得主理查德·萨顿(Richard Sutton)最新演讲:大模型只是一时狂热,AI的真正时代还没开始 7.图灵奖得主Bengio预言o1无法抵达AGI!Nature权威解读AI智能惊人进化,终极边界就在眼前 8.图灵奖得主、强化学习之父Rich Sutton:大语言模型是一个错误的起点 9.图灵奖得主杨立昆:大语言模型缺乏对物理世界的理解和推理能力,无法实现人类水平智能 10.压缩即是全部 —— 菲尔兹奖得主 Michael Freedman 给数学和 AI 的一封信
