搞发动机的张雪，没啃过一篇AI论文，却活成了最强智能体！

发布时间：2026-04-08来源：夕小瑶科技说

没啃过AI论文，却活成了最强智能体这些年，读过数百篇AI领域的论文，也有幸发表过AI顶会论文。看得越多、写得越多，反倒越发感觉到，其实一篇好论文的内核，往往是很纯粹的。

不是引用量高。不是数学漂亮。不是名校出品。也不是审稿人给了Strong Accept。

好论文最重要的标准：它改变了之后所有人做事的方式。

但这个标准有个残酷的推论：大多数论文，并未真正改变潮水的方向。

而我最近读到的一篇"论文"，作者叫张雪。

初中没毕业。14岁当修车学徒，月薪50块。20年后，他自主研发的发动机冲上15000转。2026年3月，他造的机车在葡萄牙赛道上领先第二名3.685秒，打破了欧美日38年的赛事垄断。而对手年度研发预算数千万欧元。

他没读过一篇 AI 领域的论文。但他用“搞发动机”这20年的岁月，写出了一篇最硬核的“智能体（Agent）”论文。

「唠两句起因」一万篇论文里，为什么只有这一篇

2017年6月，Google AI团队八个人往arXiv上扔了一篇论文。标题极其朴素：Attention Is All You Need。

发表时没炸。NeurIPS审稿人的意见？"实验有说服力，但主要在机器翻译上验证，不确定能否推广到其他任务。"当时的主流是RNN和LSTM。Attention？有意思，但也就那样。

第一年引用量？不算多。

但八年后回头看，从GPT、BERT，到ChatGPT、Sora、Claude、Gemini，当下关于生成式AI的一切，都长在这棵树上。

问题来了。

2017年那一年，arXiv上有多少和Attention相关的论文？可能就寥寥数十篇。做Attention改进的、做Attention变体的、做Attention+RNN混合的，但都是增量优化型论文。为什么偏偏只有这一篇改变了世界？

同样的问题。中国有多少家摩托车企业？上百家。年产量世界第一。为什么偏偏只有一个初中没毕业的造车人，打破了欧美日38年的赛事垄断？

答案藏在五个标准里。但在展开之前，先说一个底层指标，因为它是所有标准的地基。

「前传」Time Horizon北极星指标：衡量一个智能体到底能独立跑多远

2025年3月，Nature在线报道了一项发现：AI智能体以50%成功率自主完成的任务时长（Time Horizon），每隔4个月翻一倍。这被称为"AI智能体摩尔定律"。按这个趋势，到2029年AI将能自主完成需要人类专注一个月才能解决的复杂任务。

一年后的数据更猛。截至2026年初，前沿模型的单次可靠自主运行时间已突破14.5小时。AI智能体已经从"聊完就走"的工具，跨越到了能覆盖一个完整工作日的量级。如果对“AI智能体摩尔定律”感兴趣，可以参考这篇文章 AI智能体摩尔定律（更多参考请见文末）。

Time Horizon是衡量智能体最残酷的北极星指标。它不问你多聪明、多快、多便宜。它只问一个问题：给你一个任务，不需要人类干预，你能独立跑多远？

14.5小时。这是2026年最强AI智能体的答案。

张雪的答案是20年。

14岁，修车学徒。没有导师体系。没有训练数据集。没有人类标注的奖励信号。他的"预训练"是拆了几千台发动机的肌肉记忆。他的"上下文窗口"是满手洗不掉的机油。他的"长期记忆"不靠向量数据库，靠的是20年不间断地拆、装、试、炸、改、再试。

AI智能体当前最大的瓶颈叫"非确定性税"。METR的随机对照实验发现，使用高自主性AI的开发者，完成相同任务的总耗时反而增加了19%。因为人类要花额外的42分钟去逐行审查AI生成的代码，那些看起来对、跑起来炸的代码。

张雪没有这个问题。因为他的每一行"代码"都是用217次台架试验写的。不是仿真。不是模拟。是真金属在真高温下真转起来。15000转不炸，就是通过了测试。炸了，就是bug，那就拆开，找原因，改，再转。

AI智能体的Time Horizon每4个月翻一倍，靠的是更大的模型、更好的框架、更强的算力。张雪的Time Horizon翻了一倍又一倍，靠的是必须搞定发动机的信念。

20年。没有Ctrl+C。没有timeout。没有人按下Stop Hook说"你该放弃了"。

澳大利亚站成绩不佳的那天，所有人都觉得这是个timeout信号。张雪把它当成了一条debug日志。

这是论文评审之前的前提条件。如果你的Time Horizon不够长，后面五个标准再漂亮也没用，因为你根本跑不到终点。

「标准1」Novel Contribution：不是发明新东西，是证明"只用这个就够了"

投论文时，审稿人最爱问的第一个问题："What is the novel contribution?"

Transformer的Novel Contribution不是发明Attention。Attention机制2014年Bahdanau就提出了。也不是发明Multi-Head。

同时期做Attention的人多了去了。有人做Attention+RNN。有人做Attention+CNN。有人做局部Attention。有人做层级Attention。全是加法。在旧范式上修补。

只有这八个人做了减法。

把RNN和CNN全部扔掉，只用Attention，就够了。 "All You Need"这四个字才是核心。

做加法容易。做减法要命。因为减法意味着你必须证明，那些被扔掉的东西，真的不需要。整个学术界花了十年构建的RNN体系，你说不要就不要了？

这需要的不只是智商。更是胆量。

Harness Engineering的核心格言一模一样："Agents aren't hard; the Harness is hard."

这句话翻译成中文：“智能体本身并不难，难的是外围的驾驭系统。”

51.2万行Claude Code源码。90%和调用大模型无关。Anthropic的Novel Contribution不是做了一个更聪明的模型，而是清晰地表明模型智商不是瓶颈，围绕模型的工程系统才是瓶颈。

早期做AI智能体的工作真不少。AutoGPT、BabyAGI、MetaGPT等，全都是尝试让模型更聪明、让推理更长、让上下文更大。全是加法。

只有Anthropic做了减法。模型够了。问题在外面。

那张雪的Novel Contribution是什么？

在很长一段时间里，行业更习惯于成熟的供应链整合，这无可厚非，因为这是最稳妥的商业逻辑。但在大家都在稳妥中求发展时，总有些人会做出不同的选择。

张雪就是其中一个，他选择了做减法。

他没发明发动机。内燃机1876年就有了。他证明了一件事：一个初中毕业的中国人，从0开始，核心部件坚持全栈正向研发，可以在欧美日垄断38年的赛事中夺冠。

217次台架试验。17种燃烧室方案。3D打印迭代。发动机稳定冲上15000转。甚至819cc直列三缸发动机，最高转速可达16000转/分。

15000转不难。让它在第15001转时不炸，才难。

其他中国摩托车企业也在发力。大家不是没努力。但大部分发力方式是做加法，更多整合、更多优化、更多走量。

张雪的做法，是像Transformer的作者们一样，做减法、找突破。

这就是张雪版本的“All You Need”。

「标准2」Reproducibility：你做出来的东西，别人也能做出来

学术界有个让人绝望的词：Reproducibility Crisis，也就是复现危机。

2016年Nature做了一项调查。1576名科学家参与。70%的人曾尝试复现他人实验但失败。

为什么？

因为真正让实验跑通的know-how不在论文里。在实验室的口口相传里。在debug三天三夜的git log里。在那些"too trivial to publish"的工程细节里。温度多少度。学习率怎么调。数据预处理那个坑怎么绕。都不在论文里。

论文里面写的是"我们使用Adam optimizer，learning rate 3e-4"。没写的是"我们试了47组超参数，其中43组直接发散了，真正能跑的就这一组，而且只在A100上稳定，V100会OOM"。

这就是为什么一部分论文没有impact。不是想法不好。是别人复现不了。

Transformer为什么能复现？因为Google开源了代码。因为架构足够简洁。因为Self-Attention天然可并行化，硬件友好。

同时期的论文呢？很多想法同样精彩。但要么代码不开源，要么依赖特殊硬件，要么有一百个隐藏的trick。结果就是Transformer被全世界都复现了。被改进了。被盖楼了。

张雪14岁就在用Reproducibility原则。

修车学徒。月薪50块。不到20平米铁皮房。没人教理论。没有教材。就是拆。拆一台，懂一台。装一台，记一台。蒙眼装发动机。听声辨故障。三天三夜蹲车间，把一个零件的公差从5丝磨到2丝。

他的知识不在论文里。在手指的肌肉记忆里。在满手洗不掉的机油里。在20年拆了几千台发动机的直觉里。

但他的发动机能复现。因为全栈正向研发意味着极高的系统可控性。每一个零件的参数、每一道工序的标准、每一次迭代的记录，全在自己手里和心里。

高校里的研究往往受限于产学研脱节的现实。图纸很完美，理论很超前，但从蓝图到实物，中间横亘着高昂的开模费、严苛的供应链和企业对风险的规避。

跨越这道工程落地的鸿沟，光靠学者是不够的……

"从论文到真正能量产的发动机，还有十万八千里。"

Prompt Engineering的天花板是10%。剩下的90%？不在论文里。不在仿真软件里。

在油污下面。

「标准3」Ablation Study：系统性地记录什么不行

好论文还有一个特征。它不怕展示失败。

Transformer论文有一个完整的Ablation Study（中文对应术语叫“消融测试”），也就是把每个模块依次删掉，看性能掉多少。删掉Multi-Head？掉。减少Attention维度？掉。去掉Position Encoding？崩。

这本质上是什么？系统性地记录"什么东西不能少"。不是炫耀成功。是用失败划定边界。

Claude Code有个机制叫Ralph Wiggum Loop。核心是两个机制：

第一，Context Flushing。每次迭代冷启动，清空上下文。上一轮的错误推理、错误修复尝试全部清除。新一轮智能体以"纯净认知"重新开始。

第二，Stop Hooks。当智能体认为自己"做完了"想退出时，外部拦截器启动编译检查、类型验证、单元测试。任何一项不通过？冷酷截断退出流，注入错误日志为下一轮硬约束。

"剥夺了模型自我欺骗的权利。"

张雪的Ablation Study长这样。

2026年2月，WSBK澳大利亚揭幕战中，张雪机车最终只收获了第14名和第19名的成绩。

网上的声音可能会说："国产车就这水平。""PPT造车。""先把国内卖好再说吧。"

张雪没有因这次的表现平平而退缩，他只做了一件事：系统性地记录"什么东西出了问题"。

ECU迭代到第9版。发动机调校优化200余次。赛道实测累积3万公里。每一次失败，提取一条硬规则，焊进系统。

一个月后。葡萄牙站。领先第二名3.685秒。打破欧美日38年垄断。

决赛中，赛车全程顶住了极限负荷，没有出现对手遭遇的热衰减速。因为这个隐患，早在217次台架试验的某一次里，已经被发现、被记录、被解决了。

不怕失败。怕的是失败了还不写postmortem。

「标准4」Impact：发出来之后，世界变了没有

学术界的评价体系有其探索前沿的内在逻辑，h-index和影响因子也是丈量未知领域极佳的理论标尺。

但当我们把目光从实验室移向残酷的工业流水线时，评价标准的权重被彻底重置了：

h-index高不代表研究有用。SCI影响因子高不代表解决了真问题。Nature发了不代表能落地。引用量破千不代表有人真的在用。

在这条落地的泥泞之路上，评价体系奖励的是"发了多少"，而现实工业需要的是"改变了多少"。

每年发表的AI论文有多少？仅2023年，arXiv上CS领域就超过10万篇。其中有多少真正改变了行业？可能只有十位数。

为什么？

不是这些论文的想法不好。是它们缺少从想法到产品的通路。

Transformer为什么有impact？不是因为理论最优美。同时期好几篇attention论文理论上同样深刻。是因为Google有TPU集群、有海量数据、有从论文到产品的完整工程化通路。同样的想法，在不同的"环境"里，结果天差地别。

Epsilla做了一个实验：同一个模型，同一套提示词，只换运行环境。编码测试成功率：42%飙到78%。不是模型不行。是环境不行。

这不是个人问题。这是系统问题。

许多科研人员没有"跑起来"的环境。大学不提供开模费。企业不愿承担风险。课题费只够做仿真。评价体系只看论文。从蓝图到产品之间那条路，整个系统没有给他修。

张雪有。不是因为他运气好。是因为他自己修了那条路。凑2亿建研发中心。连续三个月睡实验室。每天4-5小时。核心部件坚持全栈正向研发。

好论文不是写出来的。是跑出来的。

「标准5」Paradigm Shift：不只是增量改进，而是范式转移

最后一个标准。也是最难的。也是区分"好论文"和"伟大论文"的关键标准。

增量改进是：在现有范式内做优化。LSTM比RNN好一点。GRU比LSTM简单一点。这叫improvement。每年几万篇论文，很大一部分是improvement。

范式转移是：掀翻桌子。重新定义游戏规则。

Transformer不是"更好的RNN"。它证明了不需要RNN这个东西。Sequence不需要按顺序处理。并行就够了。

这才是"All You Need"真正的含义。不是"attention很好用"。是"别的东西你都不需要了"。

为什么同时期几十篇attention论文都没做到范式转移？因为它们都在做"attention + 旧东西"。它们不敢扔掉旧东西。因为旧东西是它们的安全网。扔掉了万一不行呢？论文发不了怎么办？毕业怎么办？

2017年之前，RNN/LSTM体系太成熟了。论文、代码、课程、工具链、产业应用，几乎全都是围绕RNN的。整个生态都在奖励你沿着旧路走。谁会主动放弃一条铺好的路？

只有不怕摔的人。或者，根本没有路可走的人。

Claude Code的Harness Engineering也是范式转移。不是"更好的prompt"。是"prompt已经到头了，换赛道"。不是"更聪明的AI"。是"AI不需要更聪明，需要更好的驾驭系统"。

智能体领域以前的范式：追求更强的模型。更大的参数。更多的训练数据。GPT-3不够就GPT-4。GPT-4不够就GPT-5。所有人都在同一条路上加速。

Anthropic说：够了。模型已经够强了。问题在模型外面。

张雪的范式转移发生在哪？为什么要自研发动机？

自研发动机面临的生死线：投入巨大、周期漫长、风险极高。股东不同意。投资人不同意。市场不等你。

张雪掀翻了桌子。

"没有自主研发的发动机，永远会被卡脖子。"

他不是"做了一台更好的组装车"。他从发动机开始，坚持全栈正向研发。双涡流燃烧系统。自研ECU。全铝合金双翼梁车架，助力整车赛道版干重仅168公斤。

杜卡迪、雅马哈、川崎，这些38年的霸主，技术积累深厚。供应链成熟。品牌溢价高。

但正是这些积累，变成了包袱。它们在上一个范式里太成功了。没有动力掀翻自己的桌子。

和Transformer之前的RNN/LSTM阵营一模一样。体系太成功。论文太多。生态太完善。谁会革自己的命？

张雪没有桌子可掀。他从零开始。光脚的不怕穿鞋的。

Google放弃了RNN，自研了Transformer。然后NLP的世界变了。

张雪放下了过去的品牌光环（凯越）。选择清零重来。然后赛道上的世界变了。

范式转移从来不属于既得利益者。它属于那些没有路可走、只能自己开路的人。

Peer Review

学术论文发表前要经过严格的peer review，也就是同行评审。

张雪的论文有peer review吗？

有。

葡萄牙埃斯托里尔赛道。杜卡迪。雅马哈。川崎。38年的霸主。全球顶尖的车队。数千万欧元的年度预算。百年的赛事经验。

这可能是最严格的审稿人。因为他们不看你的PPT。不看你的理论推导。不看你的"理论水平国际先进"。

他们只看一个东西：你的车跑不跑得过我。

Verdict：Accept。

不是Borderline Accept。不是Weak Accept。

领先3.685秒的Strong Accept。

Conclusion

每年几十万篇论文发表。大多数什么都没改变。

全球上百家企业在造摩托车。近些年，大多数什么都没颠覆。

为什么？因为大多数都在做加法。在旧范式里修补。在安全区里优化。在非第一性原理的指标上卷。

真正改变世界的，是那些做减法的人。扔掉RNN。扔掉成熟发动机。扔掉安全网。只留下那个最本质的东西，然后证明它够了。

张雪没写过论文。

但每一次台架试验，是一段Methods：可复现的、具体的、带着机油味的Methods。

每一次退赛后的复盘，是一段Results：不回避失败的、诚实的、附带9版ECU迭代记录的Results。

每一次破釜沉舟的重新出发，是一段Discussion：关于路径依赖、关于什么时候该清空上下文重新开始的Discussion。

3.685秒的领先，是最好的Conclusion。

这篇论文不在任何期刊上。不在arXiv上。没有h-index。没有影响因子。

它在赛道上。在油污下面。在重庆那个还亮着灯的车间里。

看到张雪夺冠新闻的那天，虽然我没搞过发动机，但写过论文的我，心里默念了四个字："这哥们儿，真牛X。"

发动机不会自己转起来。源代码不会自己跑起来。论文不会自己变成产品。

它们都需要那些愿意把手弄脏的人。

AI智能体的Time Horizon每4个月翻一倍。张雪的翻了一倍又一倍，而且持续了20年。

区别在哪？

数字世界的智能体（Agent）依靠算法和算力的突破，延长着自主运行的边界。

而物理世界里，这个名为张雪的‘碳基智能体’，用不退出的信念，硬生生将自己的 Time Horizon 拓展到了20年。

那些改变世界的，从来都是没有退路的人。

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。