数学不是计算,而是看见结构:柯尔莫哥洛夫没有想到的事
点击上方“图灵人工智能”,选择“星标”公众号
您想知道的人工智能干货,第一时间送达

小时候我们以为数学是在研究数字、公式和图形。后来才知道,现代数学真正关心的是结构:对象之间保持了什么关系,什么可以变,什么不能变。柯尔莫哥洛夫复杂度把这件事换成了另一种说法:理解一个东西,就是找到能生成它的更短描述。AI 的学习,正在把这种结构直觉工程化。
小时候我们以为数学是在研究数字、公式和图形。后来才知道,现代数学真正关心的是结构。柯尔莫哥洛夫复杂度把这件事换成另一种说法:理解一个东西,就是找到能生成它的更短描述。AI 正在把这种结构直觉工程化。
① 数学从对象走向结构 → ② 最短描述为什么像理解 → ③ AI 如何从数据中学结构 → ④ 压缩的边界 → ⑤ 一本数学普及书带来的回声
开场:数学到底在研究什么
最近的两件事。
一件是看到一本数学普及书。
另一件,是听一位数学老师讲数学的本质。
他说了一个很有意思的转向:
以前我们学数学,眼睛总是盯着对象。
数字。
公式。
几何图形。
方程。
函数。
这些东西都很具体。你能把它写在纸上,画在黑板上,算出一个答案。
但现代数学越来越关心的,不是对象本身,而是对象之间的关系。
也就是结构。
线性代数不是只教你算矩阵,而是在研究线性空间和线性变换的结构。
拓扑学不是只研究甜甜圈和咖啡杯,而是在研究连续变形中不变的结构。
群论不是只研究一堆奇怪的符号运算,而是在研究对称性结构。
数论也不只是研究一个个整数,而是在研究整除、同余、素数分布这些隐藏在整数背后的结构。
这句话一下子把很多东西连起来了,也让我重新想起《看见数学》系列一直想讲的那件事:
数学不是更高级的计算。
数学是透过对象,看见结构。
而这件事,和 AI 的关系比表面上深得多。
因为今天的大模型做的事情,也不是简单地记住训练数据。
它真正有价值的地方,是在海量对象里压缩出结构。
所以这篇文章想回答一个问题:
AI 和数学到底是什么关系?
是 AI 利用了数学?
是数学催生了 AI?
还是说,它们其实都在做同一件更古老的事:
从混乱对象中,找到可以迁移、可以复用、可以生成新东西的结构。
一、小时候的数学,是对象的数学
很多人对数学的恐惧,来自学生时代。
一张试卷摆在面前。
上面有数字,有公式,有图形,有未知数。
你要做的事情似乎很简单:
把题目给的东西代进去。
算出答案。
如果算错了,就是你不会。
于是数学在很多人心里变成了一种对象处理术:
数字怎么加减乘除 公式怎么套 图形怎么画辅助线 方程怎么解 函数怎么求导
这当然是数学的一部分。
但它不是数学最深的部分。
就像你学语言时,先要认字、背词、造句。
可语言的本质,不是字典。
语言的本质,是人类如何用有限的符号表达无限的经验。
数学也一样。
数字、公式、图形,只是数学的可见外壳。
数学真正厉害的地方,是它能告诉你:
这几个看起来完全不同的东西,其实是同一种结构。
比如一个向量,可以是一支箭头。
也可以是一组坐标。
也可以是一段声音的特征。
也可以是一句话的 embedding。
也可以是一个神经网络中间层的状态。
对象不同,结构相同。
这就是现代数学的味道。
它不是在问:
这是什么东西?
而是在问:
它和别的东西之间保持了什么关系?
二、结构,就是“什么变了,什么没变”
理解结构,最好的方式不是先背定义,而是问一个简单问题:
当对象变化时,什么东西没有变?
拓扑学关心这个。
一个橡皮泥做的圆环,你可以把它拉长、压扁、扭曲。
只要不撕开、不粘上,它仍然是一个有洞的东西。
长度变了。
角度变了。
形状变了。
但“有一个洞”这件事没变。
这就是拓扑结构。
线性代数也关心这个。
一个平面上的图形,你用矩阵把它拉伸、旋转、投影。
点的位置变了。
坐标变了。
但如果这个变换保持加法和数乘关系,它就是线性的。
这就是线性结构。
群论关心的也是这个。
一个正方形,旋转 90 度,180 度,270 度,再翻转。
每一次操作后,正方形看起来还是正方形。
图案的位置变了。
但对称关系没变。
这就是群结构。
所以,结构不是一个玄学词。
结构就是:
在一堆变化中保持不变的关系。
数学家最擅长的事情,就是把对象一层一层剥开,找到那个不变的关系。
而一旦你找到了结构,奇妙的事情就发生了:
你不需要再记住每一个对象。
你只需要记住生成它们的规则。
三、柯尔莫哥洛夫给“理解”装了一把尺子
这就轮到柯尔莫哥洛夫出场了。
安德雷·柯尔莫哥洛夫,是 20 世纪最伟大的数学家之一。他在概率论、动力系统、湍流、算法信息论等方向都留下了深刻影响。
我们今天要借用的是他名字下面一个非常漂亮的思想:
一个对象的复杂度,可以用“生成它所需要的最短程序长度”来衡量。
这就是柯尔莫哥洛夫复杂度。
严格一点说,它不是一个日常可直接计算的工具。
对任意一段数据,那个“最短程序”通常找不出来。换一种编程语言,长度也会差一点。
但它提供了一把方向感很强的尺子:
如果一个东西背后有结构,它就应该能被更短地生成。
如果一个东西完全没有结构,它就只能被原样记住。
不要急着把它想成计算机专业术语。
先看两串数字。
第一串:
2, 4, 6, 8, 10, 12, 14, 16, ...
你不需要背下来。
你只要说:
从 2 开始的正偶数列。
这就是更短的描述。
第二串:
7, 3, 9, 1, 8, 4, 6, 2, 5, 0, ...
如果它真的是随机生成的,你很难压缩它。
你只能老老实实把每个数字记下来。
两串数字长度一样。
但第一串更简单。
为什么?
因为第一串背后有结构。
它可以被短短一句话生成。
第二串如果没有结构,就只能原样保存。
这就是柯尔莫哥洛夫复杂度最抓人的地方:
复杂不复杂,不看对象表面有多长,而看有没有更短的生成描述。
从这里往前走一步,就会碰到一个非常深的判断:
理解一个东西,往往就是找到它的更短生成描述。
你背下所有苹果落地的案例,不叫理解重力。
你知道“物体之间存在引力,并且可以用一套方程统一描述”,这才接近理解。
你记住一千道类似的题,不叫理解函数。
你知道输入、对应关系、输出、变化率、组合、反函数,这才开始理解函数。
你背下所有三角形的例题,不叫理解几何。
你知道什么关系在变换中保持不变,这才开始理解几何。
所谓“我懂了”,经常就是大脑突然找到了一段更短的程序:
原来这些零散例子,都可以由同一个结构生成。
四、最短描述为什么像理解
这里有一个容易被忽略的地方。
压缩不是把东西变少。
压缩是把表面细节,换成生成规则。
如果你只是把一段文字删短,那不叫理解。
那叫摘要。
真正的压缩,是你删掉之后,还能重新生成关键内容。
比如牛顿力学。
宇宙中每一秒都有无数物体在运动。
苹果落地。
月亮绕地。
炮弹飞行。
潮汐涨落。
如果你逐一记录这些现象,需要无限多的数据。
但牛顿用几条定律,把大量现象压缩成一个生成框架。
给定初始条件,就能推出后续运动。
这就是科学中的压缩。
数学中的压缩也类似。
你不需要记住所有平面向量的例子。
你只要掌握向量空间的公理。
你不需要记住所有连续变形后的图形。
你只要掌握拓扑不变量。
你不需要记住所有对称图案。
你只要掌握群的运算结构。
所以,数学从对象走向结构,其实也就是从记忆走向压缩。
对象越多,越需要记忆。
结构越清楚,描述越短。
这也是为什么真正好的数学老师,往往不是让你多背几种题型。
而是让你突然看见:
这些题其实是同一道题。
那一刻,学习发生了。
不是因为你脑子里多了十个答案。
而是因为你脑子里少了九种负担。
五、AI 不是记住对象,而是被训练去发现结构
现在回到 AI。
很多人对大模型有一个直觉误解:
它是不是把互联网背下来了?
这个说法有一点对。
模型确实会记住一部分高频文本、特殊模式、训练数据里的细节。
但如果它只是背诵,就解释不了今天很多现象。
它能翻译没见过的句子。
能写新的代码。
能概括一本书的思路。
能把一个领域的概念迁移到另一个领域。
能在没见过的题目上做推理。
这说明它至少做了另一件事:
从大量对象中,学到了某些可迁移的结构。
训练一个语言模型,表面目标很简单:
根据前面的 token,预测下一个 token。
但如果你要把这个任务做得足够好,就不能只背词表。
你必须学会很多隐藏结构:
语法结构。
语义结构。
叙事结构。
逻辑结构。
因果表达。
代码规则。
数学推理习惯。
人类社会的常识。
这些结构原本散落在人类写过的文本里。
模型通过损失函数和梯度下降,把它们压缩进参数。
这就是大模型最惊人的地方:
人类数学家主动抽象结构。
AI 在训练压力下被迫学出结构。
一个是概念的抽象。
一个是参数的压缩。
形式不同,方向相似。
六、AI 到底是在利用数学,还是数学催生了 AI
现在可以回答那个问题了:
AI 和数学是什么关系?
我觉得不能简单说“AI 利用了数学”,也不能简单说“数学催生了 AI”。
更准确地说,它们至少有三层关系。
第一层:数学给了 AI 语言
没有数学,我们根本没法描述现代 AI。
向量空间,让文字、图片、声音可以变成点和方向。
矩阵乘法,让信息可以在高维空间里变换。
概率论,让模型可以表达不确定性。
微积分,让误差可以沿着梯度下降。
线性代数,让神经网络可以高效运行。
信息论,让交叉熵、压缩、预测有了共同语言。
优化理论,让训练变成可操作的工程过程。
所以从工程角度看,AI 当然利用了数学。
没有数学,就没有今天的大模型。
第二层:AI 把数学的结构观工程化了
但 AI 不只是“用数学工具做产品”。
它更像是把现代数学的一种深层信念做成了机器:
世界表面很复杂,但背后有可学习的结构。
神经网络架构给了一个空框架。
训练数据提供大量对象。
损失函数提供方向。
梯度下降不断调整参数。
最后,模型内部形成某种结构化表示。
这不是人类手写规则。
也不是纯粹记忆数据。
它更像是:
数学提供结构容器 数据提供对象海洋 训练提供压缩压力 模型内部长出表示
这就是 AI 和传统程序最大的区别。
传统程序里,结构是人写进去的。
神经网络里,结构是训练出来的。
当然,人类仍然设计了架构、目标函数、数据流程和评估方式。
所以不能说 AI “自己发现了一切”。
更准确是:
人类设计了一个能发现结构的结构。
这句话有点绕,但很关键。
Transformer 本身不是知识。
Attention 本身不是语义。
矩阵本身也不是智能。
它们共同构成了一个允许知识和语义在训练中涌现出来的空间。
第三层:AI 又反过来让我们重新理解数学
过去我们常说:
数学是 AI 的基础。
这当然对。
但今天也出现了反方向:
AI 正在迫使我们重新理解数学是什么。
这也接上了我们前面写过的《压缩即是全部》。
Freedman 在那篇论文里问的其实是同一个问题:
为什么所有形式上合法的推理那么多,人类数学家真正关心的却只是其中极小一部分?
一个可能的答案就是:
人类数学不是随机挑出来的。
它偏爱那些能压缩、能迁移、能生成新问题的结构。
比如,为什么某些数学定理会被人类觉得“自然”?
为什么有些证明很短,却非常深?
为什么一个数学概念一旦被发明,就能迁移到物理、计算机、经济学、神经科学?
为什么数学不是所有形式推理的总和,而是一小部分特别有结构、特别可压缩、特别能生成新问题的推理?
这些问题,过去属于数学哲学。
今天它们突然和 AI 训练连在了一起。
因为大模型也在做类似选择:
它不能记住世界的一切。
它必须在有限参数里,保留最有用、最能泛化、最能预测未来的结构。
于是我们重新看见了一个古老事实:
数学不是对象仓库。
数学是结构压缩术。
七、但压缩不是理解的全部
说到这里,必须降一下温。
“最短描述等于理解”是一个非常有力量的方向。
但它不是万能答案。
至少有三个边界。
第一个边界:最短描述不一定适合人类理解。
一个极短的程序,也许能生成一切,但它可能完全不可读。
就像一个神经网络的参数,可能真的压缩了大量语言结构。
但你打开权重矩阵,看见的只是成千上万个小数。
它有效。
但它不透明。
所以人类要的理解,往往不只是“最短”。
还要可解释、可交流、可检查。
第二个边界:压缩容易把细节压坏。
如果一个模型只学到了“鸟通常会飞”,它可能会在企鹅、鸵鸟、受伤的鸟上犯错。
这不是没有压缩。
恰恰是压缩过头。
好的理解不是把例外抹掉。
好的理解是知道哪些差异可以忽略,哪些差异不能忽略。
这也就是为什么对称性、结构、不变量这些概念重要。
它们不只是告诉你“什么相同”。
也告诉你“什么差别必须保留”。
第三个边界:压缩不自动给出因果。
一个模型可以很好地压缩“下雨”和“打伞”经常同时出现。
但这不等于它知道:
下雨会导致人打伞 打伞不会导致下雨
相关性可以帮助预测。
因果才能帮助行动。
这就是为什么我们后面还需要 Pearl,还需要世界模型,还需要验证器,还需要真实环境中的反馈。
压缩回答的是:
世界中哪些模式可以被更短地描述?
因果回答的是:
如果我改变一个东西,世界会怎样变化?
验证回答的是:
这个推理过程到底对不对?
行动回答的是:
我把这个判断接进现实,会产生什么后果?
所以,柯尔莫哥洛夫不是终点。
他更像是一个入口。
他告诉我们:
理解的第一步,是从对象里看见可压缩结构。
但真正完整的智能,还要继续往后走。
八、好老师和好模型,都在帮你看见结构
这篇文章其实还可以回到教育。
一个好老师在做什么?
他不是把更多对象塞给你。
不是让你刷更多题。
不是让你记更多公式。
好老师真正厉害的地方,是帮你减少世界的复杂度。
他会说:
这三道题表面不同,其实都在考函数单调性。
这两个几何图形看起来不同,其实共享同一个相似结构。
这段代码和那段代码语言不同,但都在做状态更新。
这个物理题和那个经济学模型,底层都是反馈系统。
当你听到这里,脑子里会出现一种很特别的感觉:
原来如此。
这四个字,可能就是人类学习中最美的声音。
它的本质不是“我又多知道了一件事”。
而是:
我终于找到了一个结构,可以把很多事放在一起理解。
这也解释了为什么低质量学习资料会让人越来越累。
它不断给你对象,却不给你结构。
它给你结论,却不给你生成路径。
它给你答案,却不给你判断标准。
你看得越多,脑子越乱。
而高质量学习资料相反。
它会给你恰好够用的对象,然后帮你抽出结构。
它会让你做题,但不是为了刷数量,而是为了暴露结构。
它会制造一点困难,但不是为了打击你,而是为了迫使你建立新框架。
它会不断让你从:
我记住了这个例子
走向:
我看见了这类问题的结构
这也是人类学习和 AI 训练真正相通的地方。
不是人像机器。
也不是机器像人。
而是任何有限的学习者,都必须面对同一个约束:
世界太大了,不能全记住。
所以我们只能学习结构。
九、数学、AI 和人的同一条暗线
现在把这篇文章压缩成一张图:
数学:从对象中抽象结构 柯尔莫哥洛夫:用最短描述衡量结构 AI:从数据中训练出结构 人类学习:把经验压缩成可迁移结构
这四句话,其实是同一条暗线。
数学家看见很多对象,然后问:
它们共享什么关系?
柯尔莫哥洛夫看见很多数据,然后问:
生成它们的最短程序是什么?
AI 看见海量训练样本,然后在损失函数的压力下问:
哪些内部表示最能预测下一个 token?
人类学习者看见大量经验,然后慢慢学会问:
这里面有没有一个我能迁移到别处的框架?
所以,AI 和数学的关系,不只是工具和被工具的关系。
更像是两种结构发现方式的相遇。
数学是人类主动发明的结构语言。
AI 是人类用数学造出来的结构提取机器。
而它们共同指向一个更深的问题:
理解到底是什么?
我的答案越来越倾向于:
理解不是把世界装进脑子。
理解是在世界的复杂性中,找到一段更短、更稳、更能迁移的生成结构。
这就是为什么数学会让人着迷。
也是为什么 AI 会让人震动。
因为它们都在提醒我们:
世界表面是对象。
深处是关系。
再深处,是结构。
而所谓智能,也许就是在有限的生命、有限的算力、有限的注意力里,尽可能多地看见这些结构。
专门推荐一本书
最后,推荐一本我最近看到的书:
《人人都能看懂的数学》
AI 时代的数学思维普及课
我推荐它,是因为它和我之前写的《看见数学》系列有一种异曲同工之妙。
它们都不是把数学讲成刷题技巧。
也不是把数学讲成公式仓库。
而是试图把数学还原成一种普通人也能进入的思维方式:
从数字里看见抽象。
从图形里看见关系。
从函数里看见变化。
从概率里看见不确定。
从信息里看见压缩。
从 AI 里重新看见数学为什么重要。
某种意义上,正是看到这本书,再加上那位老师关于“现代数学从对象走向结构”的讲解,我才构思了这篇文章。
如果你读过我之前的《看见数学》系列,应该会很容易理解我为什么推荐它。
因为它们在做同一件事:
不是让每个人都变成数学家。
而是让更多人知道,数学不是一堵墙,而是一副看世界的眼镜。
在 AI 时代,这副眼镜反而更重要了。
本公众号延伸阅读
- 《压缩即是全部 —— 菲尔兹奖得主给数学和 AI 的一封信》
:理解“数学为什么是可压缩结构”的直接前文。 - 《为什么把模型做大就能变聪明?—— 从过拟合悖论到压缩即智能》
:从 Scaling Laws、彩票假说和压缩视角看大模型为什么可能学到世界结构。 - 《向量:理解的语言》
:从向量和 embedding 理解 AI 如何把对象放进结构空间。 - 《推理是一种坍塌吗?——AI 思考时,内部到底发生了什么》
:从内部状态轨迹看 AI 推理时如何形成结构。 - 《贝叶斯不是你以为的样子》
:从“更新信念”补上压缩之外的另一条智能暗线。
参考资料
Andrey N. Kolmogorov, Three approaches to the quantitative definition of information, Problems of Information Transmission, 1965. Ray Solomonoff, A Formal Theory of Inductive Inference, Information and Control, 1964. Gregory J. Chaitin, On the Length of Programs for Computing Finite Binary Sequences, Journal of the ACM, 1966. Jorma Rissanen, Modeling by shortest data description, Automatica, 1978. Marcus Hutter, The Hutter Prize for Lossless Compression of Human Knowledge, 2006-. Gregor Delétang et al., Language Modeling Is Compression, 2023. Vitaly Aksenov, Eve Bodnia, Michael H. Freedman, Michael Mulligan, Compression is all you need: Modeling Mathematics, 2026. Stewart Shapiro, Mathematical Structuralism, Stanford Encyclopedia of Philosophy.

文章精选:
1.编程时代已终结!ClaudeCode创始人断言:编程就像发短信一样自然,首曝个人最新工作流:自创Sloop循环,单日PR达150!传统SaaS护城河崩掉
