搞发动机的张雪,没啃过一篇AI论文,却活成了最强智能体!
没啃过AI论文,却活成了最强智能体 这些年,读过数百篇AI领域的论文,也有幸发表过AI顶会论文。看得越多、写得越多,反倒越发感觉到,其实一篇好论文的内核,往往是很纯粹的。
不是引用量高。不是数学漂亮。不是名校出品。也不是审稿人给了Strong Accept。
好论文最重要的标准:它改变了之后所有人做事的方式。
但这个标准有个残酷的推论:大多数论文,并未真正改变潮水的方向。
而我最近读到的一篇"论文",作者叫张雪。
初中没毕业。14岁当修车学徒,月薪50块。20年后,他自主研发的发动机冲上15000转。2026年3月,他造的机车在葡萄牙赛道上领先第二名3.685秒,打破了欧美日38年的赛事垄断。而对手年度研发预算数千万欧元。
他没读过一篇 AI 领域的论文。但他用“搞发动机”这20年的岁月,写出了一篇最硬核的“智能体(Agent)”论文。

「唠两句起因」一万篇论文里,为什么只有这一篇
2017年6月,Google AI团队八个人往arXiv上扔了一篇论文。标题极其朴素:Attention Is All You Need。
发表时没炸。NeurIPS审稿人的意见?"实验有说服力,但主要在机器翻译上验证,不确定能否推广到其他任务。"当时的主流是RNN和LSTM。Attention?有意思,但也就那样。
第一年引用量?不算多。
但八年后回头看,从GPT、BERT,到ChatGPT、Sora、Claude、Gemini,当下关于生成式AI的一切,都长在这棵树上。
问题来了。
2017年那一年,arXiv上有多少和Attention相关的论文?可能就寥寥数十篇。做Attention改进的、做Attention变体的、做Attention+RNN混合的,但都是增量优化型论文。为什么偏偏只有这一篇改变了世界?
同样的问题。中国有多少家摩托车企业?上百家。年产量世界第一。为什么偏偏只有一个初中没毕业的造车人,打破了欧美日38年的赛事垄断?
答案藏在五个标准里。但在展开之前,先说一个底层指标,因为它是所有标准的地基。
「前传」Time Horizon北极星指标:衡量一个智能体到底能独立跑多远
2025年3月,Nature在线报道了一项发现:AI智能体以50%成功率自主完成的任务时长(Time Horizon),每隔4个月翻一倍。这被称为"AI智能体摩尔定律"。按这个趋势,到2029年AI将能自主完成需要人类专注一个月才能解决的复杂任务。
一年后的数据更猛。截至2026年初,前沿模型的单次可靠自主运行时间已突破14.5小时。AI智能体已经从"聊完就走"的工具,跨越到了能覆盖一个完整工作日的量级。如果对“AI智能体摩尔定律”感兴趣,可以参考这篇文章 AI智能体摩尔定律(更多参考请见文末)。
Time Horizon是衡量智能体最残酷的北极星指标。 它不问你多聪明、多快、多便宜。它只问一个问题:给你一个任务,不需要人类干预,你能独立跑多远?
14.5小时。这是2026年最强AI智能体的答案。
张雪的答案是20年。
14岁,修车学徒。没有导师体系。没有训练数据集。没有人类标注的奖励信号。他的"预训练"是拆了几千台发动机的肌肉记忆。他的"上下文窗口"是满手洗不掉的机油。他的"长期记忆"不靠向量数据库,靠的是20年不间断地拆、装、试、炸、改、再试。
AI智能体当前最大的瓶颈叫"非确定性税"。METR的随机对照实验发现,使用高自主性AI的开发者,完成相同任务的总耗时反而增加了19%。因为人类要花额外的42分钟去逐行审查AI生成的代码,那些看起来对、跑起来炸的代码。
张雪没有这个问题。因为他的每一行"代码"都是用217次台架试验写的。不是仿真。不是模拟。是真金属在真高温下真转起来。15000转不炸,就是通过了测试。炸了,就是bug,那就拆开,找原因,改,再转。
AI智能体的Time Horizon每4个月翻一倍,靠的是更大的模型、更好的框架、更强的算力。张雪的Time Horizon翻了一倍又一倍,靠的是必须搞定发动机的信念。
20年。没有Ctrl+C。没有timeout。没有人按下Stop Hook说"你该放弃了"。
澳大利亚站成绩不佳的那天,所有人都觉得这是个timeout信号。张雪把它当成了一条debug日志。
这是论文评审之前的前提条件。如果你的Time Horizon不够长,后面五个标准再漂亮也没用,因为你根本跑不到终点。
「标准1」Novel Contribution:不是发明新东西,是证明"只用这个就够了"
投论文时,审稿人最爱问的第一个问题:"What is the novel contribution?"
Transformer的Novel Contribution不是发明Attention。Attention机制2014年Bahdanau就提出了。也不是发明Multi-Head。
同时期做Attention的人多了去了。有人做Attention+RNN。有人做Attention+CNN。有人做局部Attention。有人做层级Attention。全是加法。在旧范式上修补。
只有这八个人做了减法。
把RNN和CNN全部扔掉,只用Attention,就够了。 "All You Need"这四个字才是核心。
做加法容易。做减法要命。因为减法意味着你必须证明,那些被扔掉的东西,真的不需要。整个学术界花了十年构建的RNN体系,你说不要就不要了?
这需要的不只是智商。更是胆量。
Harness Engineering的核心格言一模一样:"Agents aren't hard; the Harness is hard."
这句话翻译成中文:“智能体本身并不难,难的是外围的驾驭系统。”
51.2万行Claude Code源码。90%和调用大模型无关。Anthropic的Novel Contribution不是做了一个更聪明的模型,而是清晰地表明模型智商不是瓶颈,围绕模型的工程系统才是瓶颈。
早期做AI智能体的工作真不少。AutoGPT、BabyAGI、MetaGPT等,全都是尝试让模型更聪明、让推理更长、让上下文更大。全是加法。
只有Anthropic做了减法。模型够了。问题在外面。
那张雪的Novel Contribution是什么?
在很长一段时间里,行业更习惯于成熟的供应链整合,这无可厚非,因为这是最稳妥的商业逻辑。但在大家都在稳妥中求发展时,总有些人会做出不同的选择。
张雪就是其中一个,他选择了做减法。
他没发明发动机。内燃机1876年就有了。他证明了一件事:一个初中毕业的中国人,从0开始,核心部件坚持全栈正向研发,可以在欧美日垄断38年的赛事中夺冠。
217次台架试验。17种燃烧室方案。3D打印迭代。发动机稳定冲上15000转。甚至819cc直列三缸发动机,最高转速可达16000转/分。
15000转不难。让它在第15001转时不炸,才难。
其他中国摩托车企业也在发力。大家不是没努力。但大部分发力方式是做加法,更多整合、更多优化、更多走量。
张雪的做法,是像Transformer的作者们一样,做减法、找突破。
这就是张雪版本的“All You Need”。
「标准2」Reproducibility:你做出来的东西,别人也能做出来
学术界有个让人绝望的词:Reproducibility Crisis,也就是复现危机。
2016年Nature做了一项调查。1576名科学家参与。70%的人曾尝试复现他人实验但失败。
为什么?
因为真正让实验跑通的know-how不在论文里。在实验室的口口相传里。在debug三天三夜的git log里。在那些"too trivial to publish"的工程细节里。温度多少度。学习率怎么调。数据预处理那个坑怎么绕。都不在论文里。
论文里面写的是"我们使用Adam optimizer,learning rate 3e-4"。没写的是"我们试了47组超参数,其中43组直接发散了,真正能跑的就这一组,而且只在A100上稳定,V100会OOM"。
这就是为什么一部分论文没有impact。不是想法不好。是别人复现不了。
Transformer为什么能复现?因为Google开源了代码。因为架构足够简洁。因为Self-Attention天然可并行化,硬件友好。
同时期的论文呢?很多想法同样精彩。但要么代码不开源,要么依赖特殊硬件,要么有一百个隐藏的trick。结果就是Transformer被全世界都复现了。被改进了。被盖楼了。
张雪14岁就在用Reproducibility原则。
修车学徒。月薪50块。不到20平米铁皮房。没人教理论。没有教材。就是拆。拆一台,懂一台。装一台,记一台。蒙眼装发动机。听声辨故障。三天三夜蹲车间,把一个零件的公差从5丝磨到2丝。
他的知识不在论文里。在手指的肌肉记忆里。在满手洗不掉的机油里。在20年拆了几千台发动机的直觉里。
但他的发动机能复现。因为全栈正向研发意味着极高的系统可控性。每一个零件的参数、每一道工序的标准、每一次迭代的记录,全在自己手里和心里。
高校里的研究往往受限于产学研脱节的现实。图纸很完美,理论很超前,但从蓝图到实物,中间横亘着高昂的开模费、严苛的供应链和企业对风险的规避。
跨越这道工程落地的鸿沟,光靠学者是不够的……
"从论文到真正能量产的发动机,还有十万八千里。"
Prompt Engineering的天花板是10%。剩下的90%?不在论文里。不在仿真软件里。
在油污下面。
「标准3」Ablation Study:系统性地记录什么不行
好论文还有一个特征。它不怕展示失败。
Transformer论文有一个完整的Ablation Study(中文对应术语叫“消融测试”),也就是把每个模块依次删掉,看性能掉多少。删掉Multi-Head?掉。减少Attention维度?掉。去掉Position Encoding?崩。
这本质上是什么?系统性地记录"什么东西不能少"。 不是炫耀成功。是用失败划定边界。
Claude Code有个机制叫Ralph Wiggum Loop。核心是两个机制:
第一,Context Flushing。每次迭代冷启动,清空上下文。上一轮的错误推理、错误修复尝试全部清除。新一轮智能体以"纯净认知"重新开始。
第二,Stop Hooks。当智能体认为自己"做完了"想退出时,外部拦截器启动编译检查、类型验证、单元测试。任何一项不通过?冷酷截断退出流,注入错误日志为下一轮硬约束。
"剥夺了模型自我欺骗的权利。"
张雪的Ablation Study长这样。
2026年2月,WSBK澳大利亚揭幕战中,张雪机车最终只收获了第14名和第19名的成绩。
网上的声音可能会说:"国产车就这水平。""PPT造车。""先把国内卖好再说吧。"
张雪没有因这次的表现平平而退缩,他只做了一件事:系统性地记录"什么东西出了问题"。
ECU迭代到第9版。发动机调校优化200余次。赛道实测累积3万公里。每一次失败,提取一条硬规则,焊进系统。
一个月后。葡萄牙站。领先第二名3.685秒。打破欧美日38年垄断。
决赛中,赛车全程顶住了极限负荷,没有出现对手遭遇的热衰减速。因为这个隐患,早在217次台架试验的某一次里,已经被发现、被记录、被解决了。
不怕失败。怕的是失败了还不写postmortem。
「标准4」Impact:发出来之后,世界变了没有
学术界的评价体系有其探索前沿的内在逻辑,h-index和影响因子也是丈量未知领域极佳的理论标尺。
但当我们把目光从实验室移向残酷的工业流水线时,评价标准的权重被彻底重置了:
h-index高不代表研究有用。SCI影响因子高不代表解决了真问题。Nature发了不代表能落地。引用量破千不代表有人真的在用。
在这条落地的泥泞之路上,评价体系奖励的是"发了多少",而现实工业需要的是"改变了多少"。
每年发表的AI论文有多少?仅2023年,arXiv上CS领域就超过10万篇。其中有多少真正改变了行业?可能只有十位数。
为什么?
不是这些论文的想法不好。是它们缺少从想法到产品的通路。
Transformer为什么有impact?不是因为理论最优美。同时期好几篇attention论文理论上同样深刻。是因为Google有TPU集群、有海量数据、有从论文到产品的完整工程化通路。同样的想法,在不同的"环境"里,结果天差地别。
Epsilla做了一个实验:同一个模型,同一套提示词,只换运行环境。编码测试成功率:42%飙到78%。不是模型不行。是环境不行。
这不是个人问题。这是系统问题。
许多科研人员没有"跑起来"的环境。大学不提供开模费。企业不愿承担风险。课题费只够做仿真。评价体系只看论文。从蓝图到产品之间那条路,整个系统没有给他修。
张雪有。不是因为他运气好。是因为他自己修了那条路。凑2亿建研发中心。连续三个月睡实验室。每天4-5小时。核心部件坚持全栈正向研发。
好论文不是写出来的。是跑出来的。
「标准5」Paradigm Shift:不只是增量改进,而是范式转移
最后一个标准。也是最难的。也是区分"好论文"和"伟大论文"的关键标准。
增量改进是:在现有范式内做优化。LSTM比RNN好一点。GRU比LSTM简单一点。这叫improvement。每年几万篇论文,很大一部分是improvement。
范式转移是:掀翻桌子。重新定义游戏规则。
Transformer不是"更好的RNN"。它证明了不需要RNN这个东西。Sequence不需要按顺序处理。并行就够了。
这才是"All You Need"真正的含义。不是"attention很好用"。是"别的东西你都不需要了"。
为什么同时期几十篇attention论文都没做到范式转移?因为它们都在做"attention + 旧东西"。它们不敢扔掉旧东西。因为旧东西是它们的安全网。扔掉了万一不行呢?论文发不了怎么办?毕业怎么办?
2017年之前,RNN/LSTM体系太成熟了。论文、代码、课程、工具链、产业应用,几乎全都是围绕RNN的。整个生态都在奖励你沿着旧路走。 谁会主动放弃一条铺好的路?
只有不怕摔的人。或者,根本没有路可走的人。
Claude Code的Harness Engineering也是范式转移。不是"更好的prompt"。是"prompt已经到头了,换赛道"。不是"更聪明的AI"。是"AI不需要更聪明,需要更好的驾驭系统"。
智能体领域以前的范式:追求更强的模型。更大的参数。更多的训练数据。GPT-3不够就GPT-4。GPT-4不够就GPT-5。所有人都在同一条路上加速。
Anthropic说:够了。 模型已经够强了。问题在模型外面。
张雪的范式转移发生在哪?为什么要自研发动机?
自研发动机面临的生死线:投入巨大、周期漫长、风险极高。股东不同意。投资人不同意。市场不等你。
张雪掀翻了桌子。
"没有自主研发的发动机,永远会被卡脖子。"
他不是"做了一台更好的组装车"。他从发动机开始,坚持全栈正向研发。双涡流燃烧系统。自研ECU。全铝合金双翼梁车架,助力整车赛道版干重仅168公斤。
杜卡迪、雅马哈、川崎,这些38年的霸主,技术积累深厚。供应链成熟。品牌溢价高。
但正是这些积累,变成了包袱。它们在上一个范式里太成功了。没有动力掀翻自己的桌子。
和Transformer之前的RNN/LSTM阵营一模一样。体系太成功。论文太多。生态太完善。谁会革自己的命?
张雪没有桌子可掀。他从零开始。光脚的不怕穿鞋的。
Google放弃了RNN,自研了Transformer。然后NLP的世界变了。
张雪放下了过去的品牌光环(凯越)。选择清零重来。然后赛道上的世界变了。
范式转移从来不属于既得利益者。它属于那些没有路可走、只能自己开路的人。
Peer Review
学术论文发表前要经过严格的peer review,也就是同行评审。
张雪的论文有peer review吗?
有。
葡萄牙埃斯托里尔赛道。杜卡迪。雅马哈。川崎。38年的霸主。全球顶尖的车队。数千万欧元的年度预算。百年的赛事经验。
这可能是最严格的审稿人。因为他们不看你的PPT。不看你的理论推导。不看你的"理论水平国际先进"。
他们只看一个东西:你的车跑不跑得过我。
Verdict:Accept。
不是Borderline Accept。不是Weak Accept。
领先3.685秒的Strong Accept。
Conclusion
每年几十万篇论文发表。大多数什么都没改变。
全球上百家企业在造摩托车。近些年,大多数什么都没颠覆。
为什么?因为大多数都在做加法。在旧范式里修补。在安全区里优化。在非第一性原理的指标上卷。
真正改变世界的,是那些做减法的人。扔掉RNN。扔掉成熟发动机。扔掉安全网。只留下那个最本质的东西,然后证明它够了。
张雪没写过论文。
但每一次台架试验,是一段Methods:可复现的、具体的、带着机油味的Methods。
每一次退赛后的复盘,是一段Results:不回避失败的、诚实的、附带9版ECU迭代记录的Results。
每一次破釜沉舟的重新出发,是一段Discussion:关于路径依赖、关于什么时候该清空上下文重新开始的Discussion。
3.685秒的领先,是最好的Conclusion。
这篇论文不在任何期刊上。不在arXiv上。没有h-index。没有影响因子。
它在赛道上。在油污下面。在重庆那个还亮着灯的车间里。
看到张雪夺冠新闻的那天,虽然我没搞过发动机,但写过论文的我,心里默念了四个字:"这哥们儿,真牛X。"
发动机不会自己转起来。源代码不会自己跑起来。论文不会自己变成产品。
它们都需要那些愿意把手弄脏的人。
AI智能体的Time Horizon每4个月翻一倍。张雪的翻了一倍又一倍,而且持续了20年。
区别在哪?
数字世界的智能体(Agent)依靠算法和算力的突破,延长着自主运行的边界。
而物理世界里,这个名为张雪的‘碳基智能体’,用不退出的信念,硬生生将自己的 Time Horizon 拓展到了20年。
那些改变世界的,从来都是没有退路的人。


