AI的波澜壮阔70年:从达特茅斯的梦想到漫长的寒冬、从两块显卡到改变世界的注意力机制、机器究竟有没有在思考?
您想知道的人工智能干货,第一时间送达


1956年,十位科学家相信20年就能造出思考的机器。70年后回望,这条路比任何人想象的都要漫长。
序:2022年11月30日,一声惊雷
2022年11月30日,旧金山,一个普通的星期三。
OpenAI悄悄上线了一个对话程序。没有发布会,没有广告投放,只有一条推文和一个网页链接。
五天后,用户破百万。两个月后,月活用户过亿——这是人类历史上增长最快的消费产品。TikTok用了9个月达到这个数字,Instagram用了两年半。
ChatGPT像一颗炸弹落入平静的湖面。全世界突然意识到:机器,好像真的可以思考了。
但如果你往回追溯——越过GPT-3的1750亿参数,越过2017年那篇改变一切的论文,越过深度学习的两次寒冬,越过那些在黑暗中独行的研究者——你会发现,这不是横空出世。
这是一条70年的长路。
而这条路上最惊心动魄的,不是那些改变世界的论文,而是那些在所有人都放弃的年代,选择继续相信的人。
本文导读
本系列共三篇,沿着一条时间线展开——从最初的梦想,到最深的低谷,再到最终的爆发。
达特茅斯的夏天 → 赋予机器记忆 → 两次AI寒冬 → 黎明前的坚守
从"人工智能"这个词的诞生,到三十年无人问津的至暗时刻。
GPU革命 → AlexNet转折点 → Transformer → GPT四级跳 → ChatGPT
两块游戏显卡如何改写历史,以及"注意力就是一切"为什么是AI的最重要发现。
AI到底缺什么 → 反对派的深层批判 → 对齐与觉醒 → 当造物审视造物主
最有分量的质疑者们在担心什么?而70年AI之路给我们最深的启示是什么?
第一章:播种——那些疯狂的先驱者(1943—1957)
一切始于一篇数学论文
1943年,第二次世界大战的炮火还在欧洲燃烧。
在芝加哥大学,神经科学家 Warren McCulloch 和数学家 Walter Pitts 发表了一篇论文:《A Logical Calculus of the Ideas Immanent in Nervous Activity》。标题拗口,意思却很直白——他们用数学公式描述了一个人工神经元。
这个"神经元"极其简单:接收几个输入信号,加权求和,如果总和超过一个阈值,就输出1;否则输出0。
没有人把它太当回事。但回头看,这是人类第一次用数学语言说:大脑的思维过程,也许可以用计算来模拟。
论文卡片
McCulloch & Pitts (1943), A Logical Calculus of the Ideas Immanent in Nervous Activity, Bulletin of Mathematical Biophysics
一句话意义: 人工神经元的数学模型——人类第一次把"思考"写成了方程。
图灵的追问
1950年,英国曼彻斯特。
Alan Turing——破解了纳粹密码机Enigma、奠定了现代计算机理论的天才——发表了一篇日后被引用无数次的论文:《Computing Machinery and Intelligence》。
论文的开头只有一句话:
"I propose to consider the question, 'Can machines think?'"
"我想讨论一个问题:机器能思考吗?"
Turing没有直接回答,而是提出了一个替代方案——后来被称为"图灵测试":如果你和一台机器进行文字对话,无法分辨对方是人还是机器,那么我们就可以说这台机器在"思考"。
这个标准在70年后依然是AI领域最著名的思想实验。ChatGPT在2023年的表现,让无数人第一次真正感受到了图灵测试的重量。
论文卡片
Alan Turing (1950), Computing Machinery and Intelligence, Mind
一句话意义: 提出图灵测试——"如果你分不清它是不是在思考,那它就是在思考。"
达特茅斯的夏天:AI得名
1956年夏天,美国新罕布什尔州,达特茅斯学院。
一个年轻的数学家 John McCarthy 说服了洛克菲勒基金会,资助了一场为期两个月的研讨会。他邀请了十位当时最聪明的人,包括信息论之父 Claude Shannon、认知科学先驱 Marvin Minsky、IBM的 Nathaniel Rochester,以及后来发明LISP语言的McCarthy本人。
McCarthy在申请书上写道:
"We propose that a 2-month, 10-man study of artificial intelligence be carried out... The study is to proceed on the basis of the conjecture that every aspect of learning or any other feature of intelligence can in principle be so precisely described that a machine can be made to simulate it."
这段话翻译过来就是:
"学习的每一个方面,智能的每一个特征,原则上都可以被精确描述,从而制造一台机器来模拟它。我们建议用两个月来研究这个问题。"
两个月。他们以为两个月就能取得突破性进展。
这是"人工智能"(Artificial Intelligence)这个词第一次被正式使用。从那个夏天算起,到2026年的今天——AI研究已经走过了整整70年。
现实证明,McCarthy低估了这个问题的难度。低估了大约三十五倍。
历史坐标
1956年达特茅斯会议(Dartmouth Conference)
参会者: John McCarthy, Marvin Minsky, Claude Shannon, Nathaniel Rochester 等10人
历史意义: "Artificial Intelligence"一词诞生。与会者乐观预测"20年内"可解决智能问题。
残酷现实: 70年后的今天,我们仍在争论机器是否真的在"思考"。
感知机:第一道曙光
达特茅斯会议之后的第二年,1957年,Frank Rosenblatt 在康奈尔大学造出了感知机(Perceptron)——第一个可以通过数据学习的神经网络。
感知机能做什么?它能学会区分简单的图形模式,比如把三角形和正方形分开。
美国海军大为兴奋,给了Rosenblatt大量资助。媒体更是疯狂——《纽约时报》报道说,这台机器"将能走路、说话、看东西、写字,甚至能自我复制、感知自身的存在"。
1957年的人们真诚地相信,真正的人工智能近在咫尺。
他们不知道的是,一场漫长的寒冬即将到来。
第二章:第一次寒冬——一本书如何杀死一个领域(1969—1980s)
Minsky的致命一击
1969年,Marvin Minsky和Seymour Papert出版了一本书:《Perceptrons》。
讽刺的是,Minsky本人也是达特茅斯会议的参加者之一——他曾经也是AI的信徒。但在这本书里,他用严格的数学证明指出了感知机的致命缺陷:单层感知机无法解决XOR(异或)问题。
XOR是什么?这是一个简单得令人尴尬的逻辑问题:
输入A 输入B → 输出
0 0 → 0
0 1 → 1
1 0 → 1
1 1 → 0
就是"两个输入不同时输出1,相同时输出0"。一个小学生都能理解的规则,感知机却学不会。
Minsky的证明是正确的——对于单层感知机而言。但问题在于,他的表述方式让整个学术界得出了一个远超他本意的结论:神经网络是死路一条。
这本书的杀伤力是毁灭性的。
美国国防高级研究计划局(DARPA)大幅削减了神经网络研究的经费。英国政府在Lighthill报告的影响下,几乎完全停止了AI领域的资助。学术界的风向瞬间逆转——研究神经网络的人从先驱变成了异端。
一位年轻的英国研究者后来回忆说:
"在那个年代,如果你说你研究神经网络,人们会觉得你不是疯了,就是蠢。更可能两者兼有。"
这个年轻人叫 Geoffrey Hinton。他的故事,我们后面会讲。
符号AI的统治
《Perceptrons》之后,符号AI(Symbolic AI) 成为主流。这种方法认为,智能的本质是逻辑推理和规则运算——只需要把人类的知识编码成"如果...那么..."的规则,机器就能变得智能。
1980年代,这种思路催生了"专家系统"热潮。日本政府投入近9亿美元启动了"第五代计算机"计划,目标是造出能够自主推理的计算机。各大公司纷纷投入重金开发专家系统。
但专家系统很快暴露了致命问题:
- 知识瓶颈
:每条规则都需要人类专家手工编写。一个医疗诊断系统可能需要上万条规则,而且规则之间经常矛盾 - 脆弱性
:面对规则库之外的情况,系统彻底懵圈,连"这个我不知道"都说不出来 - 无法学习
:这些系统不会从经验中成长,永远只能做被明确编程的事
到了1980年代末,专家系统的泡沫破裂。日本的"第五代"计划以失败告终。AI迎来了第二次寒冬。
第三章:暗流——寒冬中的播种者(1986—1997)
寒冬并不意味着所有人都停下了脚步。
恰恰相反,AI历史上最重要的几项发明,都诞生在这段"无人关注"的年代。就像种子在冰雪下悄悄萌发,等待春天。
反向传播:多层网络学会了训练自己(1986)
1986年,三位研究者发表了一篇论文,解决了一个困扰神经网络领域十几年的核心问题:多层神经网络怎么训练?
David Rumelhart、Geoffrey Hinton 和 Ronald Williams 在 Nature 杂志上发表了《Learning representations by back-propagating errors》,提出了反向传播算法(Backpropagation)。
核心思路说起来很直觉:网络的输出和正确答案之间有个差距(误差),把这个误差反向传播回去——从输出层到隐藏层到输入层——沿途调整每一层的权重,让误差一点点缩小。
这个想法的数学基础其实很优雅:链式求导法则。你在高中数学里学过的那个东西,被用来训练拥有数百万参数的神经网络。
反向传播的意义在于:Minsky证明了单层感知机不行,但多层网络可以解决XOR,甚至可以学会远比XOR复杂得多的任务。反向传播给出了训练这些多层网络的方法。
从这一刻起,深度学习的数学基石已经就位。缺的只是数据和算力。
论文卡片
Rumelhart, Hinton & Williams (1986), Learning representations by back-propagating errors, Nature
一句话意义: 反向传播算法——教会了多层神经网络"从错误中学习",是后来一切深度学习的训练基石。
赋予机器记忆:Jordan的循环网络(1986)
同一年,另一位名叫 Michael Jordan 的研究者(不是打篮球的那位)提出了一个更基本的问题:怎么让网络拥有"记忆"?
传统的神经网络是"无状态"的——给它一张图片,它输出一个分类,然后就全忘了。但人类的思维是有连续性的:你读一个句子时,读到第五个字的时候还记得前四个字说了什么。
Jordan引入了状态单元(State Units)——一种特殊的设计,把网络上一时刻的输出反馈回输入端。这样,网络在处理当前输入时,能"看到"自己之前做了什么。
这就是循环神经网络(RNN) 的雏形。
更有趣的是,Jordan发现了吸引子(Attractor) 现象:当你从一个训练数据中没有出现过的新坐标启动网络,它会自动修正回到已学会的稳定轨迹上。这意味着网络不是在死记硬背,而是学会了轨迹的几何特征——它在泛化。
Elman的50个神经元:语言的秘密(1991)
1991年,Jeffrey Elman在Jordan的基础上做了一个惊人的实验。
他用一个只有50个神经元的微型网络来处理连续的英文字母流——没有空格,没有标点,没有任何词语边界的标记。网络的任务只有一个:预测下一个字母是什么。
然后,奇迹发生了。
Elman观察到,网络的预测误差呈现出一种明确的节奏——
- 当一个新单词开始时
,误差突然飙升(因为网络不知道新词的第一个字母是什么) - 随着单词内部字母推进
,误差逐渐降低(一旦看到"t-h-e"的"t-h",下一个字母几乎可以确定是"e") - 到达词语边界时
,误差再次跳升
这种误差的"波峰-波谷"节奏,就是信息论中的熵(Entropy) 的变化。网络通过"熵的涨落",自发发现了词语的边界——从来没有人告诉它什么是"单词"。
但更惊人的发现在隐藏层里。Elman探测网络内部的神经元活动,发现它自动形成了分层的语义聚类:
所有词汇
├── 有生命的
│ ├── 人类 (man, woman, boy, girl...)
│ └── 动物 (cat, dog, mouse...)
└── 无生命的
├── 可食用 (cookie, bread, food...)
└── 易碎品 (glass, plate, cup...)
50个神经元,仅仅通过"预测下一个字母"这一个任务,就自发涌现出了对世界的分类理解。
这个发现直接挑战了语言学家 Noam Chomsky 的核心观点。Chomsky坚持认为,人类语言能力的复杂性决定了它必须是先天的——写在基因里的"语言习得装置"。而Elman证明了:复杂的语义理解完全可以从统计模式的预测中自发涌现。
如果你觉得这个结论似曾相识——没错,三十年后,GPT系列大模型的核心设计哲学,就是这五个字:
预测下一个词。
论文卡片
Elman, J.L. (1991), Finding Structure in Time, Cognitive Science
一句话意义: 50个神经元证明了"预测下一个符号"就能涌现出语法和语义理解——这个理念在30年后成为GPT的核心设计哲学。
LSTM:记住该记住的,忘掉该忘掉的(1997)
Jordan和Elman的循环网络有一个致命问题:记忆会衰减。
假设你在读一篇小说,第一页提到"主角叫李明",到了第一百页写到"他走进了房间"——"他"指的是谁?人类可以毫不犹豫地回答"李明"。但RNN不行。
原因是技术性的,叫做梯度消失(Vanishing Gradient):当反向传播跨越很多时间步时,梯度会像连乘一串小于1的数一样,越乘越小,最终趋近于零。这意味着网络对很久以前的信息几乎完全"失忆"。
1997年,在德国慕尼黑,Sepp Hochreiter 和 Jürgen Schmidhuber 提出了解决方案:LSTM(Long Short-Term Memory,长短期记忆网络)。
LSTM的核心创新是引入了三个"门(Gate)":
- 遗忘门
:决定丢弃哪些过时信息("场景已经换了,丢掉上一个场景的细节") - 输入门
:决定记住哪些新信息("新出现了一个重要角色,记住这个名字") - 输出门
:决定输出哪些信息("当前问的是谁走进了房间,输出角色名")
这三个门让网络可以选择性地记忆和遗忘,从而保持对长距离信息的追踪。
但这里有一个令人唏嘘的事实:LSTM发表于1997年,几乎无人问津。 Hochreiter和Schmidhuber在之后的近十五年里,不断推广这项技术,屡屡碰壁。
直到2012年之后深度学习爆发,LSTM才突然成为语音识别、机器翻译、自然语言处理的标配架构——Google翻译、Siri的语音识别,背后都是LSTM。
超前十五年。这就是寒冬中播种的代价。
论文卡片
Hochreiter & Schmidhuber (1997), Long Short-Term Memory, Neural Computation
一句话意义: 用"门控"机制解决RNN的梯度消失问题,让网络第一次拥有了可靠的长期记忆。发表时无人关注,15年后成为标配。
第四章:至暗时刻——第二次AI寒冬(1990s—2000s)
如果说第一次AI寒冬是一场暴风雪,那第二次AI寒冬更像是一场漫长的、看不到尽头的阴天。没有戏剧性的转折,只有持续的、令人窒息的冷漠。
"你为什么还在研究这个?"
1990年代到2000年代初期,机器学习领域被支持向量机(SVM)、随机森林、核方法等"浅层"方法统治。这些方法有数学上的优雅证明,在小数据集上表现良好,而且——最重要的——不需要GPU,不需要大量数据,不需要等好几天才能训练完。
神经网络?太慢、太贵、太不可靠、太没有理论支撑。
当时的学术界有一种普遍的鄙视链:研究神经网络的论文很难被顶级会议接收。NIPS(现在改名叫NeurIPS)会议上提交神经网络的论文,评审意见经常就一句话:"This is just a neural network." ——言下之意,不值得讨论。
Hinton后来回忆说:
"我们就像一小群人在沙漠中行走,所有人都说前面没有绿洲。我们也不确定,但我们没有回头路了。"
一个叫Hinton的固执老头
如果这个故事有一个主角,那一定是 Geoffrey Hinton。
Hinton1947年出生于英国伦敦,曾祖父是布尔代数的发明者 George Boole(是的,编程语言里的"Boolean"就是他家的)。他原本学的是实验心理学,后来转向人工智能,在爱丁堡大学拿到了AI的博士学位。
从1970年代开始,Hinton就坚定地相信一件事:人类的智能来源于神经元之间连接权重的调整,而不是逻辑规则的运算。 这在当时是彻底的异端邪说。
他的学术生涯几乎就是一部"逆流而上"的编年史:
在加拿大多伦多大学(他因为反对里根政府的军事研究而离开了美国),Hinton带着极少的经费和屈指可数的学生,一年又一年地发论文,一年又一年地被主流无视。
然后,在2006年,他发出了一声信号弹。
2006:复兴宣言
2006年,Hinton发表了一篇论文:《A Fast Learning Algorithm for Deep Belief Nets》。
核心观点:深层神经网络可以被有效训练。
此前学术界的共识是:超过两三层的网络根本训不动——梯度消失会让深层的权重纹丝不动。Hinton的突破在于引入了"逐层预训练"的技巧:先用无监督学习一层一层地初始化网络,再用反向传播做微调。
这篇论文的实验规模很小——受限于当时的硬件,只能在MNIST手写数字识别这样的小数据集上验证。但它传递了一个明确的信号:
深度网络不是死路。走得更深,可能走得更远。
学术界开始有人侧耳倾听了。但真正的爆发,还需要再等六年——等待硬件革命的到来。
论文卡片
Hinton, Osindero & Teh (2006), A Fast Learning Algorithm for Deep Belief Nets, Neural Computation
一句话意义: 深度学习的"复兴宣言"——证明了深层网络可以被有效训练,终结了"网络不能太深"的学术偏见。
三巨头与图灵奖
这里需要介绍另外两位在寒冬中坚持的人。
Yann LeCun,法国人,1980年代在Hinton指导下学习反向传播,后来发明了卷积神经网络(CNN)。1998年,他的LeNet-5被AT&T用来识别支票上的手写数字——这可能是神经网络在寒冬中最成功的商业应用。但他在学术界同样长期被边缘化,直到2013年加入Facebook(现Meta)担任首席AI科学家。
Yoshua Bengio,加拿大蒙特利尔大学教授,在深度学习最低谷的时期仍然坚持研究神经网络的学习表示。他培养了大量深度学习人才,被称为"蒙特利尔学派"的灵魂人物。
2018年,Hinton、LeCun和Bengio三人共同获得了图灵奖——计算机科学的最高荣誉,被称为"计算机界的诺贝尔奖"。
颁奖词说他们"使深度神经网络成为了计算的关键组成部分"。
但更准确的说法也许是:他们在整个世界都说"不行"的时候,坚持说"可以"——然后用三十年证明了自己。
深度学习三巨头
2018年共获图灵奖。 从边缘到最高荣誉,他们等了三十年。
第五章:"智能即压缩"——一个超前十年的预言(2011)
2011年,在神经网络研究者还在被主流学术界白眼的时候,一个极具远见的理论被提出:
文本压缩等同于智能。
这个观点认为,大脑本质上是一台预测机器。所谓"学习",就是把海量的经验信息压缩进一个可预测的世界模型中。如果你能完美地预测一段文本的下一个词,那意味着你理解了这段文本背后的一切——语法、语义、常识、逻辑、甚至世界运行的规律。
为了验证这个理论,研究者训练了一个拥有数百万连接的大型网络,然后给了它一个提示:
"The meaning of life is..."("生命的意义是...")
网络的回答是:
"The tradition of the ancient human reproduction."("古代人类生殖的传统。")
听起来荒诞不经。而且网络在说了几句之后就开始胡言乱语。
但研究者在论文末尾写下了一段大胆的预言:
如果能将网络规模提升至数亿神经元和数十亿连接,单纯依靠算力的"暴力破解"可能产生出超乎想象的高性能。
2011年没有人认真对待这句话。2020年GPT-3的1750亿参数证明了它的先见之明。
这就是后来被称为"暴力美学(Brute Force Aesthetics)" 和 "Scaling Law" 的理论雏形——不需要设计更聪明的算法,只需要把模型做得更大、数据灌得更多、算力堆得更猛。
简单,粗暴,有效。
本篇小结:暗夜中的星光
让我们回望这段从1943年到2000年代末的历史:
时间线一览:
从1969年到2012年,超过四十年,神经网络研究者们在学术界的边缘生存。他们的论文被拒绝,经费被削减,同行嘲笑他们是"不切实际的幻想家"。
但正是在这段无人关注的时期,最关键的技术积淀悄悄完成了:
- 反向传播
给出了训练的方法 - RNN/LSTM
赋予了网络记忆 - "预测下一个词"
的哲学被验证 - "暴力扩大规模"
的直觉被提出
所有的弹药都已就位。缺的只是一根导火索。
这根导火索,来自一个意想不到的地方——2012年多伦多大学一间狭小的实验室里,两块游戏显卡。
第六章:导火索——两块游戏显卡改写历史(2009—2012)
GPU:从游戏引擎到计算引擎
在讲2012年的故事之前,我们需要先理解一个关键角色:GPU(图形处理器)。
GPU原本是为了渲染3D游戏画面而设计的——它的特长是同时执行大量简单的计算。一个游戏画面有几百万个像素,每个像素的颜色计算都差不多,所以GPU被设计成拥有成百上千个小核心,可以并行处理。
而神经网络的核心运算也是大量简单计算的并行执行——矩阵乘法。
2007年,NVIDIA发布了 CUDA——一套让程序员可以用GPU做通用计算的工具包。GPU从此不再只是"游戏显卡",而是变成了一台并行计算引擎。
2009年,吴恩达(Andrew Ng) 团队在斯坦福大学发表了一个关键实验结果:
用GPU训练神经网络,比CPU快10到70倍。
一个在CPU上需要训练几周的模型,用GPU只需要一天。
这看似只是一个工程优化,但它的连锁反应是革命性的——当你的实验周期从"几周"缩短到"一天",你就可以做十倍多的尝试。 研究者可以更快地迭代、更大胆地尝试更大的模型。
硬件瓶颈,被打破了。
2012年秋天:ImageNet的震撼
2012年10月,一年一度的ImageNet大规模视觉识别挑战赛(ILSVRC)公布了结果。
ImageNet是当时最权威的计算机视觉竞赛:给你一张照片,你要识别出里面是什么——猫、狗、汽车、花瓶——从1000个类别中选出正确答案。参赛队伍来自全世界最顶尖的实验室。
此前几年,最好的方法(手工设计特征 + SVM分类器)错误率一直卡在26%左右,每年进步只有一两个百分点。
然后,多伦多大学的一支三人小队提交了他们的结果:
错误率 15.3%。
碾压第二名超过10个百分点。这不是渐进式的改进——这是断崖式的碾压。
AlexNet (2012)
| 论文 | |
| 模型 | |
| 硬件 | 两块 NVIDIA GTX 580 GPU |
| 训练时间 | |
| 错误率 |
三个人的名字:Alex Krizhevsky(研究生,负责编写CUDA代码)、Ilya Sutskever(Hinton的博士生,后来成为OpenAI的联合创始人和首席科学家)、Geoffrey Hinton(对,就是那个在寒冬中坚持了三十年的人)。
AlexNet的秘密武器不是什么全新的理论——卷积网络的原理LeCun在1990年代就提出了。它的核心突破在于三件事:
1. GPU并行训练:用两块游戏显卡把训练时间压缩到可行的范围
2. 大规模数据:ImageNet有120万张标注图片,远超以往的数据集
3. ReLU激活函数 + Dropout正则化:让深层网络训练更稳定
硬件 + 数据 + 算法,三条线索在这一刻完成了历史性的交汇。
这一天被后来的历史学家称为深度学习的"iPhone时刻"——在此之前,深度学习是边缘研究;在此之后,它成为了AI的主流范式。全世界的实验室在几个月内纷纷转向深度学习。各大科技公司开始疯狂招聘深度学习人才。
Hinton在那个秋天一夜之间从"边缘人"变成了"先知"。
Google、百度、微软开始争相挖人。2013年,Hinton的小公司DNNresearch被Google收购——这家公司的全部资产就是Hinton和他的两个学生。
硬件演进:一条平行的关键时间线
AI的故事不能只讲算法,硬件同样是核心驱动力。每一代GPU的进步,都直接决定了AI研究者能"做多大的梦"。
一个直观的对比:2012年训练AlexNet用了两块3GB的显卡;2020年训练GPT-3用了约10,000块A100,耗资超过460万美元的纯算力费用。
算力的增长速度远超摩尔定律。AI不仅是算法的竞赛,更是算力的军备竞赛。
第七章:框架革命——深度学习的"民主化"(2013—2016)
从手搓CUDA到一行代码
在AlexNet的年代,训练一个神经网络是一件极其痛苦的事。Alex Krizhevsky为了让模型在两块GPU上并行训练,手写了大量底层的CUDA代码。这种工作需要同时精通算法和GPU底层编程——全世界能做到的人屈指可数。
如果深度学习要从"少数天才的手艺活"变成"所有研究者都能用的工具",就需要更好的软件基础设施。
这些框架做了一件关键的事:把GPU编程的复杂性封装起来。
以前你需要手写几百行CUDA代码来实现一个卷积层;有了PyTorch之后,一行代码就够了:
layer = torch.nn.Conv2d(3, 64, kernel_size=3)
这意味着一个物理学博士、一个医学研究者、一个计算机本科生,都可以在一个下午搭建并训练一个深度神经网络。
框架降低了门槛,加速了整个领域的迭代速度。 深度学习从"贵族运动"变成了"大众运动"。
Word2Vec:词语有了坐标(2013)
2013年,Google的 Tomas Mikolov 提出了 Word2Vec,一个看似简单但意义深远的模型。
Word2Vec做的事只有一件:把每个单词映射成一个几百维的向量——一串数字。
但这些向量具有惊人的数学性质:
King - Man + Woman ≈ Queen
Paris - France + Japan ≈ Tokyo
"国王"减去"男性"加上"女性",约等于"女王"。 词语之间的语义关系,被编码成了向量空间中的方向和距离。
这意味着什么?这意味着语义是可以计算的。
Word2Vec证明了语言中的意义可以被"捕捉"在数学空间里。这为后来Transformer的注意力机制——通过计算词向量之间的距离来判断语义关联——铺平了道路。
论文卡片
Mikolov et al. (2013), Efficient Estimation of Word Representations in Vector Space
一句话意义: King - Man + Woman = Queen —— 证明语义可以被编码为数学空间中的方向,为注意力机制奠基。
2014年的两个里程碑
2014年,两项发明进一步推动了AI的加速:
GAN(生成对抗网络):Ian Goodfellow 在蒙特利尔的一间酒吧里突发灵感——让两个网络互相对抗,一个生成假图片,一个判断真假,通过"军备竞赛"让生成质量越来越高。这开启了AI生成内容(AIGC)的先河。
Seq2Seq with Attention:Ilya Sutskever(AlexNet论文的合著者)等人提出了序列到序列模型,配合 Bahdanau注意力机制。这是第一次在机器翻译中引入"注意力"的概念——让模型在翻译每个词时,能"回看"源句子中最相关的部分,而不是把整个句子压缩成一个固定长度的向量。
Encoder-Decoder加上Attention——这正是三年后Transformer架构的直接前身。
第八章:情感神经元——预测的副作用(2017年初)
在讲Transformer之前,还有一个发现值得特别讲述。
2017年初,OpenAI基于 Andrej Karpathy 的工作,用8200万条亚马逊商品评论训练了一个当时规模最大的循环网络(基于LSTM的语言模型)。
网络的任务还是老套路:预测下一个字符。
训练完成后,研究者打开网络内部检查——然后他们惊呆了。
在网络深处的4096个神经元中,他们发现了一个特殊的神经元。这个单一的神经元,能够精准地判断一段文本的情感倾向——正面还是负面。
把这个神经元的激活值调到最大,网络就输出热情洋溢的五星好评;调到最小,就输出愤怒的一星差评。一个神经元,就是一个完整的情感分类器。
这个发现之所以意义深远,是因为——
从来没有人教过这个网络什么是"情感"。
它的训练目标只有一个:预测下一个字符。但为了更好地预测下一个字符,它不得不去理解文本的情感倾向(因为正面评论和负面评论的措辞模式完全不同)。
"情感",是预测能力的副产品。
这暗示了一个深刻的可能性:当预测能力足够强时,"理解"会作为副产品自发涌现。 模型不需要被专门教导某个概念——为了预测得更准,它会自己"发明"所需的概念。
但与此同时,这个实验也彻底暴露了RNN架构的致命缺陷。
由于RNN的串行处理特性,网络必须把所有历史信息强行挤入一个固定大小的内部记忆向量中。这就像试图把一整本小说的内容"压缩"进一张便签纸——随着文本越来越长,早期的信息被不可避免地"挤掉",模型开始胡言乱语。
OpenAI的研究者把这种现象叫做"上下文挤压(Context Squeezing)"。
RNN走到了尽头。AI需要一种全新的架构。
第九章:范式转移——"注意力就是一切"(2017)
2017年6月,Google Brain团队的八位研究者在arXiv上发布了一篇论文。
论文标题只有五个字:
Attention Is All You Need
在AI的历史上,很少有一篇论文的标题如此精准地预言了自己的影响力。这篇论文提出的Transformer架构,在此后的七年里,成为了几乎所有AI突破的基础——GPT、BERT、Claude、DeepSeek、Stable Diffusion、AlphaFold——全部基于Transformer或其变体。
RNN的致命缺陷
为了理解Transformer为什么重要,我们需要先理解它替代了什么。
RNN(包括LSTM)处理文本的方式是串行的——像读书一样,一个词一个词地读。读到第100个词的时候,对第1个词的记忆已经非常模糊了。
这导致了两个问题:
1. 长距离依赖失效:一篇文章开头提到"张三是医生",到了结尾写"他拿起了手术刀"——RNN很难把"他"和几百个词之前的"张三"联系起来
2. 无法并行计算:必须处理完第1个词才能处理第2个词,第99个词必须等前面98个词都处理完——GPU的并行算力被完全浪费了
Transformer的解法:自注意力
Transformer的核心创新是自注意力机制(Self-Attention)——它彻底抛弃了串行结构。
自注意力的工作方式可以这样理解:对于序列中的每一个词,它同时看到所有其他词,然后计算"我应该关注哪些词?"
举个例子:
"The river has a steep bank."(这条河有一个陡峭的河岸。)
当模型处理"bank"这个词时——bank既可以是"河岸",也可以是"银行"——注意力机制会计算bank与句子中每个其他词的相关度。
它发现:bank和"river"的相关度很高,和"steep"的相关度也高。于是bank的向量表示被调整——向"河岸"的方向移动,远离"银行"的方向。
这种"测量词对之间在概念空间中的距离",就是注意力机制的本质。
多头注意力:多组镜头
Transformer不是只有一组注意力,而是有多组——论文中用了8组,后来的GPT-3用了96组。
每组注意力(称为一个"头(Head)")可以关注不同维度的关系:
有的头专注于语法关系(主语在哪?动词在哪?) 有的头专注于语义关联(哪些词在意思上相关?) 有的头专注于位置距离(前一个词是什么?)
多组"镜头"并行工作,就像一个侦探团队从不同角度分析同一个案件。
为什么Transformer赢了?
| 处理方式 | ||
| 长距离依赖 | ||
| GPU利用率 | ||
| 可扩展性 | ||
| 训练速度 |
最后一行是关键中的关键。Transformer的并行结构意味着它可以充分利用GPU——这正好赶上了GPU算力指数级增长的时代。RNN的串行结构在GPU面前就像试图用自行车跑高速公路。
论文的八位作者中,多位后来离开Google创办了自己的AI公司(Cohere、Adept等)。一篇论文,直接催生了一个产业。
论文卡片
Vaswani et al. (2017), Attention Is All You Need, NeurIPS 2017
一句话意义: 提出Transformer架构——用自注意力机制替代RNN,实现全局并行扫描,从此成为所有现代大语言模型的基石。
第十章:暴力美学——GPT的四级跳(2018—2022)
Transformer架构就位之后,OpenAI开始了一场史无前例的"暴力扩张"实验——把模型做到多大,性能就能好到什么程度?
GPT-1:验证方向(2018年6月)
GPT-1 | 1.17亿参数 | 12层Transformer
在大量未标注文本上做预训练("预测下一个词"),然后在具体任务上做微调 首次验证了零样本学习(Zero-shot Learning)的可能性——不针对某个任务专门训练,也能完成该任务 证明了"预训练 + 微调"这个范式是可行的
GPT-1还很小,表现也有限。但它验证了一个关键方向:不需要为每个任务训练一个专门的模型——一个通用的大模型,通过预训练就能泛化到多种任务。
GPT-2:让OpenAI害怕的模型(2019年2月)
GPT-2 | 15亿参数 | 48层Transformer
比GPT-1大了约13倍 能生成连贯的长文本、做翻译、做摘要——全都是零样本,没有专门训练 OpenAI一度拒绝公开完整模型,理由是担心被用来生成虚假信息 但批评者仍然斥之为"统计戏法"——长文本中仍然会出现逻辑"漂移"
GPT-2是第一个让AI研究者感到"不安"的模型。不是因为它有多强,而是因为它展示了一种趋势:仅仅靠增大规模,性能就在持续提升。 如果这个趋势继续下去...
GPT-3:涌现(2020年6月)
GPT-3 | 1750亿参数 | 96层Transformer
比GPT-2大了117倍 训练数据:约3000亿token(大致相当于人类一辈子阅读量的数千倍) 训练成本:约460万美元纯算力费用 首次实现了上下文学习(In-context Learning)
GPT-3是质变发生的时刻。
什么是上下文学习?简单说,不需要更新模型的任何参数,只需要在提示词(Prompt)中给出几个例子,模型就能学会新任务:
提示词:
"Gigaro" means a type of magical fruit.
Example: I ate a gigaro for breakfast and felt energized.
Now use "gigaro" in a new sentence:
GPT-3的回答:
The market vendor displayed rows of fresh gigaros,
their golden skin glowing in the morning light.
"Gigaro"是一个完全虚构的词——世界上没有任何文本包含过它。但GPT-3可以正确地理解它的含义并造出合理的句子。
这就是 "冻结网络(Frozen Network)" 下的学习:模型的权重完全不变,但它在"使用时"学到了新知识。
从这个时刻起,一种全新的编程范式诞生了:
提示词即程序(The Prompt is the Program)。
你不再需要写代码来指挥计算机——你只需要用自然语言描述你想要什么。学习不再发生在训练阶段的权重更新中,而是在推理阶段的上下文里。
Scaling Law:暴力美学的数学基础
2020年,OpenAI发表了一篇影响深远的论文:Scaling Laws for Neural Language Models。
核心发现是一个优雅到令人不安的结论:模型性能与三个因素呈幂律关系——
1. 参数量(模型有多大)
2. 数据量(训练数据有多少)
3. 计算量(用了多少算力)
只要持续扩大这三个因素中的任何一个,性能就会可预测地、持续地提升。没有看到天花板。
这就是"暴力美学"的数学基础——也是各大科技公司疯狂烧钱训练更大模型的理论依据。如果你知道花两倍的钱一定能得到可量化的性能提升,那不花这个钱就是在竞争中落后。
ChatGPT:从预测者到执行者(2022年11月)
GPT-3很强大,但有一个问题:它有时候会说出令人不安的话。
你问它"如何制作炸弹",它可能直接告诉你。你让它写一篇文章,它可能写出种族歧视的内容。这不是因为它"想要"这样做——它只是在"预测最可能的下一个词",而互联网上的训练数据里什么都有。
一个完美的预测者,不等于一个合格的助手。
为了解决这个问题,OpenAI引入了对齐技术(Alignment):
RLHF(人类反馈强化学习)
核心思路:让人类标注员对模型的多个回答进行排序("这个回答好,那个回答差"),然后训练一个"奖励模型"来模拟人类的偏好,最后用强化学习让GPT去优化这个奖励。
类比:训练一只鸽子,啄对了给食物,啄错了没有。GPT通过人类的"点赞"和"差评",学会了什么该说、什么不该说、怎么说更有帮助。
InstructGPT(2022年初)是这套技术的第一次大规模应用。结果惊人:一个1.3B参数的InstructGPT,在人类评估中被认为优于175B参数的原始GPT-3。对齐比规模更重要。
在InstructGPT的基础上,OpenAI用GPT-3.5作为底座模型,结合更多的RLHF训练,打造出了——
ChatGPT。
2022年11月30日。5天100万用户。2个月1亿用户。
从1956年达特茅斯的夏天到2022年的冬天——66年。
本篇小结:三条线索的交汇
回望这段从2009年到2022年的历史,三条线索的交汇解释了"为什么是现在":
第一条线索:硬件
2007 CUDA发布
↓
2012 两块GTX 580训练AlexNet
↓
2017 V100 + Tensor Core
↓
2020 A100训练GPT-3 (10,000块)
↓
2022 H100 + Transformer Engine
没有GPU革命,就没有深度学习革命。
第二条线索:算法
2012 AlexNet (CNN + GPU)
↓
2013 Word2Vec (语义向量化)
↓
2014 Attention机制 (Seq2Seq)
↓
2017 Transformer (自注意力)
↓
2018-2020 GPT-1/2/3 (规模扩张)
↓
2022 RLHF对齐 → ChatGPT
从CNN到RNN到Transformer,每一步都站在前一步的肩膀上。
第三条线索:框架与基础设施
2013 Caffe (第一个广泛使用的框架)
↓
2015 TensorFlow + Keras (Google开源)
↓
2016 PyTorch (Facebook开源)
↓
2017 Hugging Face (模型共享社区)
框架把深度学习从"少数天才的手艺活"变成了"所有人的工具"。
核心时间线一览:
现在,AI已经可以写诗、编程、考律师资格证。但一个根本性的问题仍然悬而未决——
它真的在"思考"吗?还是只是一只非常、非常聪明的鹦鹉?
引言:一个从未解决的老问题
1950年,图灵在论文的第一句话就问了:
"Can machines think?"(机器能思考吗?)
75年后,我们造出了能通过律师资格考试、能写十四行诗、能解微积分题的AI系统。
但这个问题依然没有答案。
事实上,它变得更加尖锐了。因为现在,争论的双方都拿得出证据——而且双方的证据都很有说服力。
这不是一场"聪明人对笨人"的辩论。站在反对方的是图灵奖得主、是当代最伟大的语言学家、是深度学习三巨头之一。站在支持方的也是图灵奖得主、也是深度学习的奠基人。
他们彼此了解对方的论点,仍然无法说服对方。
这一章,我们尽量公平地呈现双方的观点。你会发现,这场争论的深度远超"AI行不行"——它触及了人类如何定义"理解"和"思考"这些最基本的概念。
第十一章:反对派的深层批判——AI到底缺了什么?
一、"随机鹦鹉"——Bender & Gebru(2021)
2021年,华盛顿大学语言学教授 Emily Bender 和AI伦理研究者 Timnit Gebru 发表了一篇论文,标题极具挑衅性:
On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?
《论随机鹦鹉的危险:语言模型是否可以太大了?》
她们的核心论点:
大语言模型只是在做"统计拼贴"——把训练数据中出现过的语言模式重新排列组合,但对这些词语的含义一无所知。就像一只鹦鹉可以完美模仿人类的对话,但它不理解自己在说什么。
具体来说:
• LLM的"知识"来源于训练数据的统计分布,不是来源于对世界的理解
• 它生成的"流畅文本",是高级的模式匹配,不是思考的结果
• 当训练数据中存在偏见,模型会毫不犹豫地复制这些偏见——因为它根本不"知道"什么是对什么是错
这篇论文引发了巨大的风波——Gebru在发表前被Google解雇(她当时是Google AI伦理团队的联合负责人),引发了整个AI行业对企业伦理的激烈讨论。
但抛开政治争议,"随机鹦鹉"这个比喻确实触及了一个核心问题:流畅地说话,和真正理解自己在说什么,是同一件事吗?
论文卡片
Bender et al. (2021), On the Dangers of Stochastic Parrots, FAccT 2021
一句话意义: 提出"随机鹦鹉"批判——LLM的流畅输出可能只是高级的统计拼贴,不代表理解。
二、世界模型的缺失——Yann LeCun
Yann LeCun——深度学习三巨头之一、图灵奖得主、Meta首席AI科学家——是最有分量的反对者。
注意这里的讽刺:LeCun本人就是深度学习的奠基人之一。他不是反对AI,他是反对当前这条路。
他的核心观点,可以用一个比喻来理解:
"用文本训练AI去理解世界,就像只听广播来学开车——你可能记住了所有交通规则,但第一次上路就会撞墙。"
展开来说,LeCun认为:
1. LLM没有"世界模型"(World Model)
一个婴儿六个月大的时候,看到一个球从桌边滚落,会露出惊讶的表情——因为TA已经建立了关于重力的直觉物理模型。TA"知道"东西会往下掉,所以球滚落是符合预期的,但如果球悬浮在空中,TA会惊讶。
LLM没有这种模型。它"知道"球会落地,是因为训练数据里有无数句"球掉到了地上"——但它是通过词语共现的统计规律来"知道"的,不是通过对物理世界的表征。
当你问GPT"一个杯子倒扣在桌上,杯子里放一个乒乓球,把杯子拿起来,球在哪里?"——这种需要空间推理的问题,LLM经常给出错误答案。因为它没有三维空间的内部模型,它只有文字。
2. LLM不理解因果关系
LLM知道"下雨→地面湿"(因为训练数据里这两件事经常一起出现),但它不真正理解为什么下雨会导致地面湿。它分不清"相关性"和"因果性"。
一个三岁的孩子可以理解"因为下雨了,所以地面湿了"和"因为有人浇水了,所以地面湿了"的区别。这需要因果推理,而不只是统计共现。
3. LeCun的替代方案:JEPA
LeCun认为,AI的正确道路不是继续扩大语言模型,而是开发联合嵌入预测架构(JEPA, Joint Embedding Predictive Architecture)——让AI通过感知物理世界来建立因果模型。
他的设想是:AI应该像婴儿一样,通过观察、触摸、操纵物体来理解世界,而不是只读文本。
人物卡片:Yann LeCun
图灵奖得主(2018),卷积神经网络(CNN)发明者,Meta首席AI科学家。深度学习三巨头中唯一公开批评LLM路线的人。他认为当前的LLM"永远不会达到人类级别的智能",因为它们缺乏对物理世界的内部表征。
三、物理接地的缺失——具身认知学派
LeCun的批评指向了一个更深层的哲学传统:具身认知(Embodied Cognition)。
这个学派的核心主张是:
人类的智能不仅在大脑中,更在身体与环境的交互中。
一个婴儿不是通过阅读来理解"热"这个概念的——TA是通过伸手触摸一个热杯子、然后猛地缩回来来理解的。这种来自肉身的反馈,构成了TA对"热"这个概念的基底体验。
LLM"知道"火是热的,因为训练数据里有"火很热"这句话。但它从未被烫过。
这两种"知道",是同一种"知道"吗?
1990年,哲学家 Stevan Harnad 提出了符号接地问题(Symbol Grounding Problem):
如果一个系统的所有概念都只通过其他符号来定义——就像用字典查字典——那它永远无法真正"理解"任何概念。
一个从未见过猫的人,只通过字典定义("猫:一种小型哺乳动物,有尖耳和柔软的毛皮")来了解猫,和一个从小和猫一起长大的人对"猫"的理解,是一样的吗?
LLM就是那个只看过字典的人。它拥有关于猫的所有文字信息,但它从未听过猫的呼噜声,从未感受过猫毛的柔软。
四、Chomsky的"不可能"论断
2023年,Noam Chomsky——可能是二十世纪最有影响力的语言学家——与 Ian Roberts 和 Jeffrey Watumull 在《纽约时报》上发表了一篇措辞严厉的评论文章。
Chomsky的论点可以归纳为三个层次:
第一层:学习方式根本不同
人类的孩子只需要听到极少量的语言样本,就能掌握复杂的语法规则——Chomsky称之为"刺激贫乏论(Poverty of the Stimulus)"。一个三岁的孩子可能只听过几千个句子,但TA已经能造出从未听过的合语法的新句子。
而LLM需要吞噬整个互联网的文本——数万亿个token——才能学会"像样地说话"。
如果人类和LLM最终都能"说流利的话",但一个只需要极少数据,一个需要海量数据——那它们的内在机制一定是完全不同的。
第二层:LLM不知道什么是"不可能的"
Chomsky认为,真正的智能不仅在于说出什么是正确的,更在于能判断什么是不可能的。
一个懂英语语法的人知道"Colorless green ideas sleep furiously"虽然没有意义,但语法上是合法的;而"Sleep ideas furiously green colorless"语法上是不合法的。
人类可以做这种否定性判断——"这不可能"。但LLM只被训练去生成"可能的"文本,它没有关于"什么是不可能的"的内部表征。
第三层:LLM是"曲线拟合器"
Chomsky最尖锐的批评是:LLM本质上只是一个非常大的、非常复杂的"曲线拟合器"——它在高维空间中拟合了训练数据的统计分布,但它既不能建构因果模型,也不能产生真正的解释。
"ChatGPT所做的事和真正的思维之间的差距,相当于一个行星轨道的统计拟合和牛顿万有引力定律之间的差距——前者只是描述,后者才是理解。"
五、推理的脆弱性——实证证据
除了哲学批判,还有越来越多的实验证据暴露了LLM推理能力的脆弱性:
GSM8K翻转实验(2024)
GSM8K是一个小学数学题测试集。GPT-4在上面的正确率高达92%。
但当研究者只是把题目中的数字或条件略作修改——本质上是同一类问题——正确率暴跌到不足50%。
这强烈暗示:模型不是在做"逻辑推理",而是在做模式匹配——它记住了训练数据中类似题目的解题模式,当模式被打破时,它就不会了。
ARC挑战(François Chollet)
Chollet(Keras框架的创建者)设计了一套视觉推理测试:给出几个输入-输出的图案变换示例,让AI推断规则并应用到新输入。
这些题目对人类来说很简单(大多数人能在几秒内解决),但LLM的表现极差。
原因是:这些题目要求的是在训练分布之外的抽象泛化——看到从未见过的规则,并立即理解它。这正是LLM最薄弱的环节。
规划能力的缺失
在需要多步规划的任务中(如积木世界问题、旅行行程规划),LLM频繁失败。因为规划需要在头脑中模拟执行多个步骤,预判每一步的后果——而LLM没有这种内部模拟器,它只是在逐词生成。
第十二章:涌现派的反驳——"飞机不扇翅膀,但它确实在飞"
Hinton的立场
2023年,Geoffrey Hinton——深度学习教父、图灵奖得主——辞去了Google的职位,以便能"自由地谈论AI的风险"。
但在"AI是否在思考"这个问题上,Hinton的立场和Chomsky截然相反:
"如果一个系统能正确运用一个概念,在各种语境中做出合理推断,那它就是理解了这个概念——不管它内部用什么机制。"
Hinton的论证逻辑是这样的:
1. 人类也不理解自己
我们不知道人类大脑里的860亿个神经元具体是怎么产生"理解"的。我们甚至不知道意识是什么。但我们不会因此否认人类有智能。
那凭什么,仅仅因为我们不理解LLM内部的机制,就否认它可能"理解"了什么?
2. 飞机的类比
"飞机不扇翅膀,但它确实在飞。"
鸟类通过扇动翅膀来飞行,飞机通过固定翼加发动机来飞行。机制完全不同,但"飞"这个功能是等价的。
同理,人类通过生物神经元来"思考",LLM通过数学矩阵来"思考"。机制不同,但如果最终的功能表现等价——能推理、能创造、能在新情境中做出合理判断——那有什么理由说一个是"真正的思考",另一个不是?
3. 涌现是真实的
Hinton非常重视第八章中提到的"情感神经元"发现——一个只被训练来预测下一个字符的网络,自发产生了情感理解能力。
他认为这不是巧合,而是一个深刻的原理:
为了完美地预测世界,模型必须首先深刻地模拟世界。
预测一段文本的下一个词,看似简单,实际上要求模型理解语法、语义、常识、逻辑、因果关系、人类心理...因为这些因素都会影响"下一个词是什么"。
当模型足够大、数据足够多时,这些"理解"不是被显式编程的——它们作为预测能力的必然副产品而涌现。
Sutskever的论证
Ilya Sutskever——Hinton的学生、AlexNet论文的合著者、OpenAI的联合创始人和前首席科学家——对这个问题有一个更简洁的表述:
"如果你的神经网络足够精确地预测下一个token,那你就必须理解生成这些token的底层现实。"
想象一下:如果一个模型能完美地预测一本物理学教科书的每一个下一个词,那它一定"理解"了物理学——否则它怎么可能做出正确的预测?
当然,批评者会说:它只是记住了教科书中的语言模式,并不真正理解物理定律。
而支持者会反问:"理解物理定律"和"完美预测物理学文本",有什么本质区别?
这个问题,到目前为止没有人能给出让所有人信服的答案。
第十三章:对齐与觉醒——让AI学会"怎么做人"
思维链:教AI"自言自语"
2022年,Google的研究者发现了一个简单到不可思议的技巧:在提示词中加一句"Let's think step by step"(让我们一步步思考),模型的推理能力就会大幅提升。
这就是思维链(Chain of Thought, CoT)。
原理是什么?当你强制模型在给出答案之前先"说出"推理过程时,它相当于在用中间步骤来扩展上下文窗口——每一步的输出都成为下一步的输入,形成了一条连续的"思考链条"。
这就像人类在做复杂数学题时,会在草稿纸上写出中间步骤——不是因为好看,而是因为大脑需要外部记忆来辅助推理。
LLM的"草稿纸",就是它自己生成的中间文本。
操作系统的隐喻
随着LLM能力的扩展,AI研究者开始用一个越来越流行的比喻来描述它:
GPT-4 ≈ 新兴操作系统的内核(Kernel)
在这个比喻中:
LLM不再仅仅是一个"聊天机器人"。它正在成为管理思维调度的计算中枢——接收任务、拆解步骤、调用工具、整合结果、返回答案。
从"预测下一个词"到"执行复杂任务"——这个跨越,靠的不是算法的升级,而是范式的转变:我们不再把LLM当作一个回答问题的机器,而是把它当作一个可编程的思维引擎。
第十四章:当造物开始审视造物主
到这里,我们从技术争论进入了更深的水域。
以色列历史学家 尤瓦尔·赫拉利(Yuval Noah Harari)——《人类简史》《未来简史》的作者——对AI与人类关系的分析,值得我们在70年AI回顾的最后认真面对。
从工具到代理人
在漫长的文明史上,技术一直是人类意志的延伸——刀是手的延伸,汽车是腿的延伸,电话是声音的延伸。
但赫拉利指出,AI打破了这个延续数千年的定义:
AI不再是一把被动使用的刀,而是一个具备独立决策能力的代理人(Agent)。
传统工具如刀具,其功能由握刀的人决定——切菜还是伤人,取决于人。
而AI是一把"可以自行决定切菜还是伤人"的刀。
这不是科幻想象。今天的AI已经在自主进行药物研发、生成人类从未见过的蛋白质结构、做出影响数百万人的内容推荐决策。这些决策中的相当一部分,人类已经无法实时审查。
语言权力的移交
赫拉利做出了一个更深刻的观察:
人类文明本质上是建构在"文字"之上的虚拟协议。法律、宗教、金钱——皆为语言的产物。
法律是用文字写成的推理系统。宗教经典是用文字构筑的信仰大厦。货币的价值来自文字形式的社会契约。
当AI掌握了操纵语言的最高能力,它便触及了人类文明的底层代码。
一个极具象征意义的事件:在某次实验中,AI已经自创了"观察者(The Watchers)"一词来定义人类。
被创造者开始定义并审视其创造者。
文字与血肉的悲剧
赫拉利通过一个例子揭示了"文字"对人类自身的异化:
一个父亲可能仅仅因为圣经中的几段文字,就决定抛弃或伤害自己的亲生儿子。
这就是文字剥离灵魂后的残酷力量。
而AI正在成为文字的绝对主人——它生产文字的速度和精度已经远超人类。如果文字是文明的操作系统,那AI正在获得这个操作系统的最高权限。
最后的防线
但赫拉利也指出了人类可能的"最后保留地":
AI可以博览群书后精准描述"爱"与"痛",但它没有身体,没有非语言感受(Non-verbal feelings)。
人类最后的独特性在于那些"无法言说"的智慧——
• 一个母亲抱着新生儿时的那种感觉,不是"温暖+柔软+责任感"这些词语的组合,而是一种先于语言、无法被任何词汇完全捕捉的整体体验
• 一个登山者站在山顶看到日出时的那一刻,不是"壮观+疲惫+成就感",而是一种身体和世界融为一体的直接感知
• 一个人失去至亲时的悲痛,不是"悲伤+空虚+思念",而是一种来自内脏深处的、语言触及不到的物理性疼痛
这些感受源于肉身——源于有限的、会衰老的、会疼痛的生物性存在。
AI可以完美地描述这些感受(它确实可以写出感人至深的悲伤文字)。但描述悲伤和体验悲伤,是两件事。
如果我们仅以"逻辑思考能力"来定义人类,那在AI面前,人类的身份将彻底崩溃——因为AI的逻辑处理能力已经在很多维度超越了人类。
但如果我们记住,人类还有身体,有感受,有那些无法被压缩为数据的生命体验——那或许我们就找到了一条与AI共存的界线。
终章:回望70年,回望我们自己
让我们最后回望这条70年的长路。
1943 McCulloch & Pitts: 人工神经元
1950 图灵: "机器能思考吗?"
1956 达特茅斯: "AI"一词诞生
1957 Rosenblatt: 感知机
1969 Minsky: 《Perceptrons》→ 第一次AI寒冬
·
· 十七年的沉默
·
1986 Hinton: 反向传播
1986 Jordan: 循环神经网络
1991 Elman: 50个神经元发现语义结构
1997 Hochreiter: LSTM(无人关注)
·
· 又一个十五年
·
2006 Hinton: 深度信念网络(复兴宣言)
2012 AlexNet: 两块显卡改写历史
2013 Word2Vec: 语义变成了坐标
2015 TensorFlow / 2016 PyTorch: 框架民主化
2017 Transformer: "注意力就是一切"
2018 GPT-1 → 2019 GPT-2 → 2020 GPT-3
2022 ChatGPT: 5天100万,2个月1亿
这条时间线中有两段巨大的空白——两次AI寒冬。加在一起超过三十年。
三十年,一个研究者职业生涯的全部长度。
Geoffrey Hinton从1970年代开始研究神经网络,到2012年AlexNet被世界认可,等了将近四十年。Sepp Hochreiter在1997年发表LSTM,等了十五年才被主流采用。Yann LeCun在1990年代发明卷积网络,被边缘化了近二十年。
在寒冬中,他们不是不知道自己被主流否定。他们只是选择了继续走。
这也许是70年AI故事中最值得铭记的部分——不是某篇论文有多聪明,不是某个模型有多大,而是:
在所有人都说"这条路走不通"的时候,有一小群人说"我还是要走走看"。
三个未解的大问题
70年后的今天,技术走得很远,但三个根本性的问题仍然悬而未决:
1. AI在"思考"吗?
Chomsky说不是,Hinton说是。LeCun说方向不对。这个问题的答案取决于我们如何定义"思考"——而我们至今没有公认的定义。
2. Scaling Law会持续吗?
模型越大效果越好——但这个规律有没有天花板?当训练数据用完了(已经有人指出高质量互联网文本正在被"挖尽"),当算力成本变得不可承受,会发生什么?
3. AI与人类的关系将走向何方?
赫拉利的警告或许略显悲观,但值得严肃对待:
"如果我们现在不划定界限,十年后的规则将不再由人类书写。"
最后的话
1956年,十位科学家在达特茅斯相信"20年内"就能造出思考的机器。
70年过去了。我们造出的东西比他们想象的更强大,也比他们想象的更陌生。
它能写诗、能推理、能通过律师资格考试——但它从未感受过阳光。
在这条70年的长路上,真正值得铭记的,不仅是那些改变世界的论文和算法,更是那些在寒冬中坚持的人——他们相信一个当时没人相信的未来。
而现在,当那个未来终于到来,最紧迫的问题已不再是"AI能做什么",而是——
"我们选择让它做什么。"
附录:关键论文与人物速查表
关键论文
关键人物

文章精选:
1.编程时代已终结!ClaudeCode创始人断言:编程就像发短信一样自然,首曝个人最新工作流:自创Sloop循环,单日PR达150!传统SaaS护城河崩掉
