Z Waves｜26岁，博士毕业10个月，陈博远带着13个人把GPT Image2打到了全球第一，领先第二名241分

发布时间：2026-05-22来源：Z Finance

GPT Image2以1512分出色成绩登顶Arena榜单，领先第二名241分，呈现出历史最大分差生成速度提升6倍，3秒出图，4K分辨率。英文、中文、韩文、孟加拉语的文字渲染准确率超过99%。这些数字的背后，是一位中国学者带领一支仅13人的团队，和一张从无锡到伯克利再到MIT的华人学术传帮带网络。他的名字叫做——陈博远。

这位年仅二十六岁、MIT博士毕业不到一年的年轻人，已然成为负责训练GPT图像生成模型的核心五个人成员之一，同时还是Sora视频生成团队的成员。他从高中夏令营里连Python语法都不懂的编程小白，到站在全球最强图像生成模型最前方的Research Lead——只用了十年。

图片来源： Boyuan Chen个人主页

高中时代16岁玩机器人，17岁遇上引路人

陈博远，2000年左右出生，他的高中时代在江苏省天一中学度过。2015年起，由于自身对智能机器人领域的无尽热爱，他选择去担任天一中学人工智能社的社长。在他的带领下，天一中学的机器人小队在全国乃至各类赛事中获得优异成绩，成为了一名在人工智能领域拥有深厚学术背景、坚定科研信念和抱负的青年学者。

2016年前后，16岁的他参加了FIRST Robotics Competition（FRC）。学校资源有限，但他每天花数小时设计机器人，带队完成比赛。同年5月，作为高二学生的他参加江苏省青少年科技创新大赛，凭借图像识别追踪无人机项目入围决赛。那时候他对AI还没有概念。连Python的基本语法都不熟悉，NumPy是什么更是闻所未闻。

真正改变他轨迹的，是高二那年参加的一个科研夏令营。在那里，他结识了后来成为Google DeepMind资深研究员的华人学者夏斐（Fei Xia）。对一个高中生来说，这种出色的动手能力和钻研劲头是藏不住的。夏斐作为已经在Google DeepMind工作的资深研究员，愿意花时间向一个高中生解释什么是深度学习，大概率是因为他看到了这个年轻人身上的好奇心和执行力——这是做研究最核心的两个素质。正因如此，一个当时连编程都不会的高中生，就这样被推入了AI世界的大门。

图片来源：新智元（中间陈博远，右一夏斐）

从夏令营里的偶然相识，促成了学术圈里最原始、最纯粹的师徒关系，而这段关系的起点，只是一个前辈愿意花时间去引导一个后辈观察，发现深度学习的世界。夏斐本身就是一个既做前沿研究、又愿意带学生的学者。夏令营对他来说可能只是一个短期的mentoring机会，但对陈博远来说，这是整个职业生涯的入口。

本科阶段18岁进伯克利，19岁创业，20岁进顶级实验室

2017年，陈博远从天一中学国际部毕业，进入加州大学伯克利分校（UC Berkeley）。他选择了计算机科学与应用数学双专业，进入竞争激烈的EECS荣誉班（EECS Honors），最终以3.96的GPA完成本科学业。

入学三个月后，18岁的他做了一件大多数新生不会尝试的事，他创办了机器人教育公司（Robot Locomotion Group Lab)，为中小学生开发机器人竞赛相关的软硬件产品。这家公司从2017年11月一直经营到2020年3月，跨越了他本科的大部分时间。从想法到代码、从代码到用户、从用户到收入，他完整走了一遍。一个18岁的大学生，一边应付EECS荣誉班的双学位课程，一边经营一家面向中小学生的机器人教育公司——这种同时驾驭多件事的能力，后来在他同时操盘GPT图像训练和Sora视频两大项目时，几乎以更大的规模重演。

图片来源：MIT CSAIL Alliances

2019年1月，20岁的他进入伯克利人工智能实验室（BAIR），师从美国机器人学习领域的先驱Pieter Abbeel，从事深度强化学习和无监督学习研究。这段经历一直持续到2021年8月，几乎覆盖了他本科的后两年半。2021年，22岁的陈博远以双学位荣誉毕业，随后进入麻省理工学院（MIT）计算机科学与人工智能实验室（CSAIL）攻读博士学位。

至暗时刻

陈博远的博士生涯比绝大多数人都要紧凑——2021年9月入学，2025年完成答辩，不到四年，同时还辅修了哲学。但光鲜背后，他也经历过真实的低谷。读博第一年，22至23岁的他因论文产出陷入瓶颈，这是他整个学术生涯最艰难的阶段。

关键时刻，夏斐再次提供了决定性的帮助：协助陈博远发表了第一篇有影响力的研究NLMap，并邀请他到Google X与Google DeepMind参与两次实习。第一次实习在2022年5月至8月，23岁的他在Google X实习，表现出色到拿到了谷歌L4级别的return offer——但他选择了decline，继续深耕学术。第二次实习在2023年5月至8月，24岁的他来到Google DeepMind，在夏斐指导下主导搭建了基于大规模合成数据的多模态大语言模型（MLLM）数据合成管线，其总结的指令微调技术后来被Gemini2.0直接采用。

在MIT期间，他发表了多篇在学术界和工业界均获得认可的研究。其中博士代表作“Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion”入选NeurIPS 2024，提出了一种全新的序列生成训练范式，将逐token独立噪声级扩散与因果下一个token预测结合。他还以共同一作身份发表了“SpatialVLM”，通过自动构建互联网规模的3D空间推理VQA数据集（1000万图像、20亿QA对），为视觉语言模型赋予定量空间推理能力，可从单张2D图像输出米制距离、尺寸、方位等精确数值，将思维链空间推理应用到了具身智能领域。

图片来源：Google scholar

值得一提的是，在此期间，陈博远遇到了两位出色的学者作为他的导师，他们分别是：1）Vincent Sitzmann，作为MIT EECS助理教授，领导Scene Representation Group（场景表示研究组），2）Russ Tedrake，作为MIT Toyota讲席教授（横跨EECS、航空航天、机械工程三个系），领导Robot Locomotion Group（机器人运动研究组）。这两位导师对他的影响十分深远。Vincent Sitzmann的“世界模型”研究思路——让AI通过心理模拟器预判物理世界的变化，而不只是单纯模仿像素——直接影响了陈博远后续在OpenAI的技术方向。在陈博远的读博期间，Sitzmann帮助他探索把扩散模型和序列生成结合起来的方法，让模型理解并分析时序和空间上的因果逻辑，从而更好的生成更高质量的内容。两人联合发表了《History-Guided Video Diffusion》和《Large Video Planner》两篇论文。

图片来源：arXiv

Russ Tedrake则教会了他研究的“延迟满足”：陈博远曾回忆，自己最初总想尽快投稿，但Tedrake会告诉他，“我知道你能把这篇论文投中，但我们应该再打磨一下，推迟提交。”那些被推迟提交的作品，后来都收到了前所未有的好评。Tedrake还教会他欣赏他人的工作、强调自己算法的优势而非别人的局限——这种心态帮助他建立了真正有影响力的研究基础。

2025年，不到26岁的陈博远完成MIT博士答辩。辅修哲学的他，在研究之外也保持着对技术与人类关系的深层思考。他在个人博客中写道：“我可以负责任地告诉大家，具身智能一定是下一个一百年最令人激动的技术，并且我们在有生之年很有希望见证通用机器人的诞生。”

OpenAI时代—从Sora到GPT Image 2的架构重构

2025年6月，博士刚毕业的陈博远加入OpenAI，迅速成为GPT图像生成核心五人研究团队之一，负责GPT图像生成模型的所有训练，同时也是Sora视频生成团队的一员。在演示中，他给家乡无锡做了一张海报。然后为来自首尔的队友做韩文海报，为来自Bangladesh的队友做孟加拉语海报。每一张中的文字渲染都精准无误。

十个月后，2026年4月，GPT Image2发布。发布会现场，陈博远和Sam Altman同台主持，演示了文字渲染能力。但他在知乎博客里自嘲了一句：“多语言能力是直播后半节，国内媒体好像并没有发现只有我才是国人QwQ。”这句带表情符号的自嘲背后，是一个值得玩味的细节——在那支13人、华人过半的团队里，真正站到前台承担训练和能力展示核心角色的，是他。

图片来源：陈博远的知乎博客

发布后不久，陈博远在知乎发了一篇博客，标题非常直接：“我在OpenAI修中文。”开头更直接：“大家好，我是GPT Image团队的研究科学家陈博远。上周发布的GPT生图模型就是我主力训练的！”这篇博客不是技术论文，更像一个幕后花絮。但他透露的信息量足够让外界理解，GPT Image2为什么能做到99%的字符准确率。

解题思路发生了改变，旧方法是把文字当图形画，随机噪声还原成像素，“看起来像字”就行。GPT Image2把文字当语言生成，一个token接一个token，图像和文字共用同一个生成流程。对语言模型来说，输出“好”和输出任何语言的字符一样可靠。这个思路，和陈博远2024年在NeurIPS发表的论文《Diffusion Forcing》高度呼应。那篇论文的标题就很直白：Next-token Prediction Meets Full-Sequence Diffusion。翻成大白话，就是让“一个token接一个token的结构能力”和“扩散模型处理连续细节的能力”接上。他的学术工作，直接影响了他主力训练的这个产品。

陈博远在博客里还解释了一个更有趣的细节：整个官网blog的所有图片，都是用模型生成的，完全没有普通文本。而他亲手做了其中大部分。那张中文彩蛋漫画，是他想做一个“很搞笑的漫画”，用到了“接住梗”和“香蕉梗”。为了展示文字能力，他特意让模型在图里加入多国语言文字，又在家乡海报的右下角生成特别特别小的中文，用来测试模型到底能处理多细的细节。更关键的是，这张图不是拼接出来的——整张图，包括画中画和画中画中画，都是一次性生成的。他担心大家以为这是拼接图，还特意在图底加了备注。

图片来源：陈博远的知乎博客

还有这张米粒刻字图。4K分辨率，画面里是一堆米粒，其中一颗米粒上刻着字。这测试的是模型在极小尺度里的文字控制能力。以及黑板视觉证明——用视觉方式证明数学定理。每一张看似宣传物料的图片，其实都是一次次有设计目的的能力测试。

图片来源：陈博远的知乎博客

在博客最后，他特别感谢了整个团队。他说，每个人都做了很多很多的事情。在发布前的尾声，他除了修一些小东西，就是和市场部门的同事、做艺术的同事一起准备发布会和网站。GPT Image2是一次研究、产品、审美和传播的共同完成。

布基胶带

GPT Image2在正式发布前，用代号“duct-tape”在LMArena上进行了双盲测试。这个代号是陈博远自己起的。“至于为啥起名叫布基胶带嘛，”他在知乎博客里写，“当然是因为你可以用布基胶带把香蕉贴在墙上啦！”——指的是那幅世界闻名的艺术品，一根香蕉用布基胶带贴在墙上。

图片来源：陈博远的知乎博客

结果是：布基胶带以ELO+242分断崖领先第二名，代号为“小香蕉”（nano banana）。+241分是LMArena图像竞技场有史以来最大的领先差距，没有模型曾经以这个幅度超过第二名。这不是小幅迭代，是架构级别的跳跃。陈博远自己在博客里也确认，从去年12月底的GPT Image1.5算起，只用了四个月就有如此大的改进。但是底层架构已经彻底重构，核心团队只有13人。

图片来源：Gabriel Goh的Twitter

团队负责人Gabriel Goh在社交媒体上晒出了一张团队成员AI全家福。全员亚裔，华人过半。评论区有网友感叹：怎么全是亚洲人？这个问题本身可能比任何技术论文都更能说明当下的AI权力格局正在发生的变化。陈博远身后那张由夏斐、Pieter Abbeel、Russ Tedrake、Vincent Sitzmann等一代代学者搭建起来的华人学术传帮带网络，不是血缘关系，是知识关系——是无数个“他就像我的吴恩达”的链条叠加在一起，最终把一批二十多岁的年轻华人研究者，推到了全球AI创新的最中央。

从16岁在FRC赛场上设计机器人的高中生，到26岁带队重构全球最强图像生成模型的Research Lead，陈博远用十年时间走完了这条路径。而视觉世界模型对于具身智能至关重要——这是他反复强调的信念。当AI不仅能生成逼真的画面，还能理解物理世界的运行规律时，通用机器人的诞生才真正有了时间表。

从16岁在FRC赛场上设计机器人，到26岁站上OpenAI最核心的图像生成团队，陈博远只用了十年。但他最特别的地方，或许并不是“天才”——而是一种很少见的、始终愿意从零开始的研究者气质。高中时不会Python，读博第一年经历低谷，进入OpenAI后又重新“修中文”、重新思考图像与语言的关系。

他不像那种锋芒毕露的明星科学家，反而更像一个对世界始终保持好奇的人：认真到会在一粒米上测试模型能不能刻字，也会为了一个香蕉梗给模型取名“duct-tape”。而这种近乎执拗的好奇心，也许正是他一路走到今天的原因——真正推动AI向前的人，很多时候并不是最会讲故事的人，而是那些愿意反复追问“机器到底有没有真正理解世界？”的人。

[1] 新智元，来自MIT最强AI实验室：OpenAI天才华人研究员博士毕业了，https://www.36kr.com/p/3470460912801156
[2] 量子位，半壁华人！GPT Image 2团队曝光：无锡才俊带队，https://www.qbitai.com/2026/04/405391.html
[3] 爱范儿，起底GPT Image 2 团队后，我扒出了一张华人师徒网，https://www.ifanr.com/1663499
[4] MIT CSAIL，Boyuan Chen Spotlight，https://cap.csail.mit.edu/engage/spotlights/boyuan-chen
[5] 虎嗅，实测ChatGPT最新生图模型三大发现，https://www.huxiu.com/article/4853320.html
[6] 江苏省天一中学，天一校友风采| 陈博远：OpenAI天才华人研究员，https://www.tyzx.com.cn/gjjy/jsfc2
[7] Boyuan Chen个人主页，https://www.boyuan.space/
[8] Boyuan Chen个人主页Resume，https://www.boyuan.space/resume

加入ZF讨论群，请先添加小助手微信

---------END--------

我们相信认知能够跨越阶层，

致力于为年轻人提供高质量的科技和财经内容。

投稿邮箱：zfinance2023@126.com

稿件经采用可获邀进入Z Finance内部社群，优秀者将成为签约作者，00后更有机会成为Z Finance的早期共创成员。

🚀 我们正在招募新一期的实习生

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。