ChatGPT数学进阶之路!OpenAI研究员自爆:ChatGPT从数不清数到给出埃尔德什问题全新解法;数学是衡量模型进步的重要基准;AI自动化研究员
您想知道的人工智能干货,第一时间送达

当模型成为“自动化研究员”后,人类的角色是什么呢?
Sebastian 给出的答案是:我们解题是因为我们在尝试理解更深层次的事物,而这是为了更好的控制我们的环境。对于“哪些问题是重要的”,我们必须对AI保持控制并引导,比如“AI 并不在乎治愈疾病,它们不会像我们一样遭受疾病之苦,但我们在乎”,而这会让我们迎来一个非常光明的未来。
说到未来,两位研究员认为 AI 时代的数学将变得解法更多、乐趣更多,理论互联性更强,结论被验证的速度更快且更可信。同时,深度理解比以往任何时候都更有价值。缺乏专业背景的人使用 AI 往往会产生看似合理实则荒谬的“幻觉证明”。
与此同时,他们也期待 AI 的数学能力会扩展到所有科学领域,能够让科学家更高效、更强大,做出更好的成就。
LLM在数学领域取得的进展让职业数学家们都十分震惊
Andrew Mayne:我想很多人都有这种认知,觉得这些模型不擅长数学,毕竟它们被称为“语言模型”。这种情况是怎么改变的?发生了什么?
Sebastian Bubeck:是的,我认为过去几年的进步简直是奇迹。重要的是要记住,两年前我们甚至还没有推理模型,更不用说能证明困难数学定理的模型了。两年后的今天,这些模型已经能够在日常工作中协助菲尔兹奖得主了。所以这种跨越简直令人震惊。如果我能再补充一点,有一点很重要:包括我们在内的所有人都对这种进步感到惊讶。
给你讲个故事,一年半以前,我和其他数学家同事参加了一个会议的工作坊,我参加了一场辩论,主题是大语言模型(LLM)的缩放(Scaling)是否能帮助我们解决重大的开放性问题。那是大约一年半前的辩论,当时全场分歧很大。事实上,他们在开始时做了一个民意调查,我想大约 80% 的人说“不,这不可能发生”。随后辩论展开。到辩论结束时,比例变成了大约 50 对 50。在那一个小时里取得了不错的进展。
事后看来,这显然是大错特错的。仅仅 8 个月后,模型就开始能够进行研究级别的数学工作了。
Andrew Mayne:对你来说,意识到 AI 和数学之间存在绝佳交汇点的突破性时刻是什么?
Ernest Ryu:2025 年夏天,重大新闻是 ChatGPT 在国际数学奥林匹克(IMO)中达到了人类顶尖水平,获得了金牌表现。那是一个惊人的消息。这证明了,至少对于竞赛级别的数学,模型的逻辑能力已经非常强了,可以与人类最顶尖的高中选手相提并论。但是,竞赛题目是“套路题”。它们的解法相对较短,因为要求在几个小时内解出。而且它们不是原创的,因为既然题目出得出来,就一定有解。所以那还不算研究级别的数学。于是我产生了好奇,很多人也很好奇:ChatGPT 能做研究级别的数学吗?网上有很多讨论。然后我想,我应该在自己的问题上试一试。与其听别人怎么说,不如亲自尝试并做出判断,因为我自己就是数学家。
Ernest Ryu:于是我选了一个优化理论中的经典开放问题,这是我从事的应用数学分支。具体问题是关于一个著名的算法,叫做 Nesterov 加速梯度法。问题是:它是否始终具有这种收敛行为,还是在某些极端情况下,可能存在某种发散行为?这个问题是真正的开放性问题,因为人们知道在大多数情况下,该算法表现良好且收敛,但人们确实不知道是否存在反例?在最坏的情况下,它会发散吗?答案证明是肯定的。
我记得非常清楚我是如何发现它的。我给儿子定的睡觉时间是晚上 8 点,然后我尽量不在午夜之后熬夜。所以,如果我想专注于某件事,我通常有四个小时的晚间个人时间。于是我决定,好,我要花几天时间研究这个问题。在三天的跨度里,总共 12 个小时,我针对这个问题与 ChatGPT 进行了互动。这并不是我输入提示词就能得到答案那么简单。我扮演了验证者的角色。每当模型犯错时,我都会纠正它。我还试图将对话引导至我觉得新颖的方法领域。一段时间后,证明出来了,我检查了一遍。我还让 ChatGPT 进行了复核,结果是正确的。就这样,这个困扰了 42 年的开放性问题得到了解决。得到这个解法后,我在想,对我来说最有趣的发布方式是什么?因为我可以写一篇论文,但那样比较无趣。所以我决定,去 Twitter(现 X)上聊聊这件事。我玩得很开心。我想这是 AI 解决真实数学开放问题的最早案例之一,大家非常关注,这真的很有趣。
2025 年初及之前,ChatGPT 在普通数学问题上仍表现不佳
Andrew Mayne:你提到这一点很有趣,我们有时看到有人说“嘿,我发现了一些很酷或很新颖的东西”,有时会被拆穿,有时则经得起推敲。社交媒体可能有点可怕,但看起来我们确实需要这种反馈循环。我想对我们很多人来说,挑战在于听到像“国际奥数”这样的词时,很难理解它在问题难度等级上意味着什么。我能理解加减乘除。你能给我举个例子吗?模型是如何从最初只能勉强应付,到能做数学、能使用工具,再到模型能够隐式理解数学的?
Ernest Ryu:2023 年初 ChatGPT 刚问世时,我开始测试它。我很好奇模型在普通数学问题上的表现。这包括高中水平的题目,也包括日常生活中带有数学性质的问题。
例如,想象一个场景,我们三个人一起去露营,我付了这个钱,Andrew 你付了那个钱。最后我们想结清账目,平摊费用。ChatGPT 能帮我们计算吗?如果你买了 17 样东西,这其实中等复杂。在 23 年、24 年,甚至 25 年初,我记得模型都做不好。
另一个例子是,假设我在韩国,Seb 在巴黎,Andrew 你在加州,我们想安排一个 Zoom 会议。什么时候比较合适?同样,在 25 年初,模型也做不好。
但突然之间,情况发生了变化。我当时不在 OpenAI,所以并不完全清楚你们具体做了什么,但模型突然开始解决 IMO 题目了。更进一步,它开始解决研究级问题。我现在对此的评估是:除非你是一名试图发现新数学理论的职业数学家,如果你是一名物理学家或化学家,需要使用复杂的数学(如微分方程、微分几何等),但你不是在发明新数学,那么 ChatGPT 可以处理你所需的所有数学。
Ernest Ryu:基本上,STEM 领域的任何高级数学使用者现在都可以使用 ChatGPT 来处理他们的数学问题。你还是需要保持一定程度的谨慎,检查结果是否正确,运行仿真进行复核。模型是会犯错的。但现在,对于 99% 的人想要解决的任何数学问题,模型都能胜任。
Andrew Mayne:当我参与 GPT-4 的发布工作时,我曾把排程作为例子。我可以把三个人的行程放进去让它找出时间段。但再往后推就很难了。为什么会发生这种变化?Ernest 刚才谈到突然发现它变强了。我们知道其中一点是工具的使用,比如允许模型使用计算器。但模型本身也发生了其他变化。
Sebastian Bubeck:回到我刚才告诉你的那场辩论,当时的争论点在于仅仅靠缩放(Scaling)LLM 本身,是否能让你在数学研究上取得突破。这是一个错误的框架。我们在 OpenAI 做了大量的研究和创新,不仅仅是缩放模型。当你问去年年中发生了什么,让模型突然能解决数学问题时,其实是很多因素共同作用的结果。我们做了很多研究,所有这些研究必须同时推进。所以我无法将其归功于单一因素。
Andrew Mayne:但它确实在不借助工具的情况下做到了。
Sebastian Bubeck:是的。我认为有必要再次强调 Ernest 所说的关于进度以及模型以前无法处理的排程问题。我说过两年前我们没有推理模型,想想四年前。四年前是 ChatGPT 诞生之前。我记得当时 Google 推出了一款名为 Minerva 的数学模型。我当时惊讶得从椅子上摔了下来。我被什么惊到了?只要给模型平面上点的坐标,它就能给出一条穿过这些点的直线。现在说起这个,大家可能很难理解了:“你在说什么?模型当然能做到。”所以我认为我们有些忘记了事情发生得有多快。而现在,正如 Ernest 所说,除非你想发明新的数学,否则模型基本已经达到了所需的水平。我甚至会说,我们已经看到了模型甚至可以发明新数学的微光。
LLM 会数学是衡量模型进步的重要基准
Andrew Mayne:你能分解一下吗?除了对开发新数学领域或证明新定理感兴趣的人之外,这会对其他事物产生什么影响?这对科学的影响是什么?对你们正在研究的其他工作有什么影响?为什么这非常重要,而不只是“噢,真酷,它会做题”?
Sebastian Bubeck:我认为,“它会做数学”这部分在开发模型过程中作为衡量进度的基准非常重要。数学的好处在于问题非常清晰且没有歧义。大家都认同问题的要求。这是第一点。第二点,你可以验证答案。一旦模型给出答案,所有人都会达成共识:它是对还是错。虽然研究级别的评估没那么简单,但在研究级别以下,评估非常容易。所以,数学在过去四年中是观察模型进步的完美基准。现在,我们可以说在这个方面已经趋于饱和。你可以问,好,现在模型会数学了,下一步呢?
对于下一步,我会说让模型擅长数学对很多其他事情都有好处。让我解释一下原因。数学的一个关键特征是,要解决一个问题,你必须思考很长时间,可能是几天、几周,甚至几年。这种长时间的思考,不仅要求时间长,还要求思考过程始终保持逻辑一致。如果在推理链条的某个地方出现了一个错误,整个论证就毁了。即使在那之后的一切都是正确的也没用。只要有一个失效点,整个论证就崩溃了。这种特性使得它成为推理模型所追求的目标,即如果它们犯了错,它们能够自我纠正。所以我们希望,它们通过数学获得的这种能力可以推广到其他领域。顺便说一句,这和人类的情况完全一样。我们为什么要训练人类学数学?这很有趣,我热爱数学,我们也以此为业。但训练人类学数学的原因完全相同:它赋予你这种非常严密的逻辑思维能力。
Andrew Mayne:我们需要思考讨论这些发现的新方式吗?
Ernest Ryu:是的。我个人认为我的部分职责是尝试向研究界科普最近的进展,因为我拥有双重背景:既是前数学家,现在又在 AI 的前沿工作。确实,Twitter 和社交媒体是解释进展的好地方,尤其因为这种进步速度太快了。
ChatGPT 解决数学界埃尔德什(Erdős)问题
Andrew Mayne:例如,我们可以聊聊埃尔德什(Erdős)问题,以及围绕它发生的一些争议。首先是 Ernest 举的例子,然后还有其他几个问题被解决了。你能顺便介绍一下保罗·埃尔德什(Paul Erdős)是谁吗?我想大家会想知道他为何如此特别,以及为什么他的问题很有趣。
Sebastian Bubeck:当然。保罗·埃尔德什是上个世纪最高产的数学家之一。我想他写了 1500 篇研究论文。他是一个非常特立独行的人物。他没有房子或公寓。他只是从一所大学旅行到另一所大学,寻找新的合作者。每到一个地方,他基本上就是提问。他在提问方面非常有天赋。并不是他提出的所有问题都有趣,但这极具启发性。研究界和他一起写了很多论文。甚至有一个“埃尔德什数”的概念,即在合作者链条中,你离埃尔德什有多远。我的埃尔德什数是 2。我和一个曾与埃尔德什合著过的人合著过论文。
Andrew Mayne:哇,那很厉害。
Ernest Ryu:我的数是 3。
Sebastian Bubeck:有个笑话是,你可能只是和他坐了一趟火车,到下车时,你可能已经和他合写了一篇论文并署了名。
Ernest Ryu:没错。我认为“2 对 3”基本上反映了我们各自的年龄差异,这才是真相。
Sebastian Bubeck:总之,埃尔德什留下了所有这些问题。Thomas Bloom 建立了一个非常棒的网站,追踪所有仍未解决的埃尔德什问题。那个网站上大约有一千个问题。Thomas 本人就是组合数学专家。他可以标明:这个是开放的,这个已解决。当然,他不一定知道所有问题的答案。如果一个问题被标记为“开放”,并不一定意味着真的没人会解,但也可能是一个互动的平台,人们可以在上面评论和解释解法。当我们开始让 GPT 解决数学研究问题时,这看起来就像是一个尝试模型的宝库。我们试了几个。令我们大为惊讶的是,模型对一些标记为“开放”的问题给出了答案。我们对此感到非常兴奋。
我在去年 10 月左右发过一条推文,那是一个“深度文献搜索”的结果。让我解释一下这意味着什么。这意味着 GPT 做了极其广泛的文献检索,扫描了数千篇论文。它在某个不相关的领域找到了该问题的答案。理解这一点很重要:并不是说在那个无关领域里,有人写道“我在解决埃尔德什问题”。它是用完全不同的语言编写的,属于不同的数学分支。你必须做工作把这两部分联系起来,而 GPT 做到了。这太神奇了。这在当时还比较随机,我们只是在 ChatGPT 界面上手动尝试。看到这些后,我们团队的 Mark Selke 决定采用更系统的方法尝试所有问题,模型给出了 10 个埃尔德什问题的解法。你要记住,当时关于模型是否能超越现有技术水平去发现、发明新数学仍有激烈的讨论。
我对这个结果非常兴奋并发布了推文。那条推文后来有点“恶名昭彰”,因为人们误解了我的意思,以为它真的凭空想出了 10 个非常困难的开放问题的全新解法,且文献中从未存在过。但事实并非如此。它与之前的情况相关,即“深度文献搜索”。当时还和 Google 的 Demis 关于如何描述此类结果产生了一些争论。但现在的重点非常惊人,也就是几个月后的今天。我当时说的是 10 个开放问题的解法,而那些解法存在于文献中。那么问题来了:你能找到文献中不存在的解法吗?到目前为止,我们已经拥有超过 10 个真正的全新解法,完全可以在组合数学的顶尖期刊上发表,这些解法完全是由 ChatGPT 或我们的内部模型得出的。这再次说明了加速度:在短短几个月内,我们就从“说能解 10 个埃尔德什问题听起来很荒谬”变成了“这正真实发生且在加速”。
AI 将会让我们重新理解科学进步的本质
Andrew Mayne:这很有趣,因为第一步似乎是让模型能做极好的文献研究。此前已经有很多重大论文和奖项颁给了那些通过文献搜索发现“这里的问题其实在别处已被解决”的人。所以第一步做到这一点很酷,但现在它真的在进行原创研究了。我非常喜欢 AI 研究的一点是,它迫使我们去面对关于智能、研究和进步以及我们如何发现新事物的重大问题。特别是,我们在科学中看到的进步,究竟只是把不同的碎片拼凑在一起并进行一点推理,还是真的存在那些天才般的灵感闪现?
Sebastian Bubeck:当然,每个人都会指向爱因斯坦的相对论,但老实说,我不确定那是否真的算数。所以,关于这种仅仅通过“重新组合”加“一点思考”的过程是否能无限制地增加人类知识,还是我们真的需要那种某种程度上只有人类才具备的“天才火花”,目前尚无定论。
Andrew Mayne:甚至爱因斯坦自己也归功于某人,我忘了是谁了,但那人提出了类比和可视化的方法。他说那不是他发明的,我们指出是谁做的,而他显然只是将其向前推进了一步。我想我们有时太迷恋这些简单的小故事了,而现实往往比这复杂得多。
Sebastian Bubeck:是的,完全正确。
Andrew Mayne:如果我们在 AI 中拥有更好的数学工具,对广大的科学家意味着什么?它如何影响生物学、材料科学等其他领域?
Sebastian Bubeck:关于这如何影响其他科学领域,我想让大家理解这一点非常重要:我们并不是在为数学做某种非常特殊的事情,我们的技术和训练方法是非常通用的,它们适用于一切。所以我们的预期是,我们之所以在数学上看到更多进展,原因之一是它非常容易进行基准测试,很容易看到进步;但我们完全期待这会发生在所有科学领域,而不仅限于数学。
构建 AI “自动化研究员”:让模型在更长时间跨度工作
Andrew Mayne:AI 似乎非常擅长这种推理:“如果这是真的,那么那也是真的”,并完成一长串此类陈述,这在其他地方有很多应用。我们听过“自动化研究员”(auto-researcher)这个词。你想详细展开聊聊吗?
Sebastian Bubeck:目前我们的工作方式正是 Ernest 所描述的那样,实际上是一种“互动”。这有点像教授与学生之间的互动,ChatGPT 是学生,教授给出第一个问题,学生回来反馈,然后他们交流一下;学生回去再研究一周,然后再回来。当然,关键的一点是,这种模式极大地压缩了时间线。在 Ernest 解决那个问题的案例中,花了 12 个小时。我想知道,如果没有 ChatGPT,你会花多久?
Ernest Ryu:在没有 AI 的情况下,我已经花了超过 40 小时且失败了。我不知道,如果全靠自己,可能需要一个月。
Sebastian Bubeck:没错。所以这里存在这种压缩时间线的作用。而当我们谈论“自动化研究员”时,那是一个略有不同的愿景:模型或模型集群可以自主工作很长一段时间。如果我们想超越当前的水平,这是必需的。这种“学生一周后回来”的教授-学生互动模式,很难实现真正的突破,很难解决那些悬而未决的研究难题,或者在生物学等需要与湿实验室互动并进行各种实验的极难领域取得进展。一旦你想追求真正的突破,我们就需要模型在更长的时间跨度内工作。这就是自动化研究员介入的地方。
或者换种说法,我非常推崇的一个概念是“AGI 时间”。你可以有 AGI 秒、分钟、小时、天等等。这意味着你拥有一个 AI,它可以模拟人类思维,但能持续多久?正如 Ernest 所说,两年前,模型可能在模拟一个思考几分钟问题的高中生。现在我们可以模拟一个能思考数小时、甚至几天的研究员。我们真的希望朝着这个方向迈进——而且这种进步在过去四年里非常一致,我们字面上经历了从秒到分钟、到小时、到天的跨越。现在我们大致处于“天”到“一周”的阶段。我们希望走向“周”甚至是“月”。这是开放性的研究,我认为地球上没人确切知道该怎么做。但这又回到了那点:我们正在进行大量的研究和创新,我认为当一切整合在一起时,我们会看到这条持续在“AGI 时间”上取得进步的弧线。这就是自动化研究员的方向。
Ernest Ryu:我交流过的其他数学家,他们使用 AI 的模式是打开 ChatGPT,然后在那个上下文窗口内进行交流。你可以有多个会话,但每个会话都有有限的上下文长度,大约相当于 50 页数学论文的容量。这对于做出真正的深度数学、开创性的数学突破来说是不够长的,因为很多数学论文都超过 50 页。而且,生产出一篇 10 页或 30 页论文所投入的人类思考量,通常比最终输出的内容要长出好几个数量级。
所以有限的上下文窗口是一个限制。但用过 Codex 的人会知道,你实际上可以与 Codex 进行非常长的工作会话。你只需不断给出关于你想写什么样的代码的指令。而你正在处理的代码本身,即你的代码库(在数学语境下,类比就是你写下的数学笔记),可以变得非常非常长。Codex 非常擅长处理这种情况。它偶尔会压缩对话内容,它有办法成为一个真正惊人的智能体,在巨大的代码库和极长的对话上下文中完成极其复杂的任务。
我相信数学研究也会发生同样的事情。我们将能够让大语言模型(LLM)解决那些思考过程超过 50 页的问题。这就是人类数学家所做的:人们在某个问题上思考一天,然后总结想法并记入笔记;第二天或下一周再回来研究。经过几个月,我们思考了很久,但它被总结、组织成了可管理的模式。最后,最终产出变成了总结数月甚至数年思考的 30 页论文。
AI 赋能科学研究
Andrew Mayne:是的,我认为这会发生。周末我正在处理一个对你们来说非常可笑的问题,试图用 LLM 弄清楚如何让一个小规模 LLM 做数学。中间我需要一个基准测试,于是我发现了 Easy Math(一个针对小型 LLM 的基准测试),但那只是一篇论文,没有太多数据。在 Codex 工作的中途,我说:“你能在这里为我创建基准测试并生成数据吗?”五分钟后,我就拿到了。这对我来说太神奇了,因为以前我得花好几个小时去写生成器之类的。
Sebastian Bubeck:当然,而且它是在后台运行的。我无法想象你们在处理“成年人级别”的问题时是什么样子。你所描述的,正是我们发表那篇标题为《利用 GPT-5 加速科学的早期实验》的论文时所追求的目标。你体验到的是字面意义上的“加速”。这在以前可能需要你工作好几天。
Andrew Mayne:或者我会直接放弃。
Sebastian Bubeck:是的,这正是重点。它赋能了各地的科学家,比如让数学家能够使用代码。我们的很多朋友并不写代码,而现在突然间他们有了 Codex。他们可以亲自完成以前只能找可怜的研究生去做的所有实验。现在他们可以非常轻松地完成。反过来说,得益于 ChatGPT,所有学科的科学家现在也可以使用更先进的数学。
人类必须控制和引导 AI 解决重要的问题
Andrew Mayne:我曾和 Bob Metcalf 坐在一起,教他如何使用 Codex 写 R 语言,因为他正在做一个项目,而 R 对他来说是全新的。把一个拥有伟大头脑的人带入其中,告诉他:“嘿,不用花大量时间去抠细节,这就是你的工具”,这是一种非常有趣的经历。但当然,正如你之前提到的,我们应该谈谈人类在这一切中的角色。尤其是当我们开始思考未来时。我不迷恋预测未来,我喜欢解释已经发生的事……但你认为会发生什么?
Sebastian Bubeck:我想,这其中有我内心的直觉,也有理性的考量。理性的想法是:看,过去四年的进步非常一致。从解决几秒钟的数学问题,到分钟、到小时、到天。没有任何理由认为这种趋势会停止。任何观察这种现状的人都会说:一年后,你将拥有可以思考数周的系统;两年后,系统可以思考数年。不仅如此,今天我们就已经发现我们的模型在某些方面能够超越人类,比如在论文中纠错。我们内部有智能体能够找到论文并指出:“嘿,这其实是错的,正确答案在这。”
不仅如此,人们倾向于认为 AI 只擅长回答问题。其实不然,它也非常擅长“提问”。当然,这需要一些研究创新,而我们已经做到了。现在我们的模型非常擅长提问,甚至到了人类看到这些问题会说:“嘿,也许我应该根据这个问题写篇论文”的程度。这已经在发生了。我想说的是,在一两年内,模型可以完成人类研究员所做的基本所有工作。那么接下来呢?人类的角色是什么?我们为什么要搞科学?意义何在?意义不应该是为了解题而解题。我们解题是因为我们在试图“理解”某些东西。
理解是关键。我们解题不是为了写论文,或者为了证明我们写的论文比邻居多 10 倍。那不是重点。如果你喜欢解题本身,你可以去参加竞技国际象棋。我们是在尝试理解更深层的事物。为什么要理解深层事物?因为我们想更好地控制我们的环境。我们想治愈疾病,想把东西造得更好、更快、更坚固、更稳固。所以我认为,只要人类保持控制并引导“哪些问题是重要的”,我们将迎来一个非常光明的未来。AI 并不在乎治愈疾病,它们不会像我们一样遭受疾病之苦,但我们在乎,所以我们必须控制并引导它们解决这些问题。
AI 时代的数学将变得更有趣、更互联、更可信和更快
Andrew Mayne:在第一台计算机问世时,当“计算机”从一个计算员变成一台真正的机器,有些人认为我们都得从数学转行去搞物理,因为物理才会有难题,数学难题都会被计算机解决。那是 20 世纪 40、50 年代的事,事实证明并非如此。计算开启了一个全新的分支。这种趋势会继续,今天的高中数学家在 30 年后会拥有非常令人兴奋的未来,正是因为现在发生的一切。
Ernest Ryu:我认为数学会变得非常有意思。在 AI 时代之前,我们要花几个月来解决一个问题。虽然有乐趣,但过程非常艰辛。那是痛苦的,非常痛苦。而当你真的找到解法时,会有一股多巴胺激增。而这种体验将被加速:更多的解法,更多的乐趣。
而且,我认为数学会变得更加丰富,因为它的互联性会更强。在研究层面,很多数学是非常“小众”的。当你写一篇论文时,你知道现在活着的只有 5 个人会关心它。但你喜欢这个结果,所以你发表了它。20 年后,它会躺在某个存档里,没人阅读。但现在有了 AI,AI 会读过它。如果存在某种有用的联系,就像 Sebastian 提到的,AI 会让它浮出水面。100 年后的人们会发现并使用它。所以我现在更有信心,我发表的研究只要未来有用,就一定会被用到。同时,我也能以更广泛的方式接触数学。有些领域我没学过,但如果出现了一个相关的结果,以前我必须先研究那个领域才能使用它,而没有 AI 的辅助,我根本找不到那个结果。但现在它可以触达了。模型告诉我:“嘿,你可以用这个来解决你的问题”,然后我就去尝试。所以数学将成为一项互联性更强的事业。
Ernest Ryu:而且,验证数学的正确性其实是非常复杂的。想象一个 300 页长的证明,声称解决了一个非常重要的问题。作者声誉良好,论文表面看起来也合情合理。你如何确定它是对的?这个验证过程往往需要数年。仅有一个人读过是不够的,需要很多人阅读、尝试扩展并深入细节。这个过程非常缓慢。有时,甚至会有致命错误的证明被发表。这导致整个领域最初接受了一个结果,后来才发现无法挽救,必须将其剔除。有了 AI,这将极大加速。目前 ChatGPT 和我们的 AI 模型在验证数学方面还不完美,但已经非常出色了。而且,它比人类更有耐心。
Sebastian Bubeck:确实。事实是,许多已发表的数学研究都有小错误,很多甚至有大错误。我们知道这一点是因为我们用模型测试过。但我认为数学更丰富的未来将通过 AI 验证来实现。我们将对哪些结果正确、哪些错误有更高的确定性,并获得更快的反馈。一周前发表的论文,我们马上就能得到验证。我们可以放心地在此基础上构建,而不需要等上五年才确定其正确性。总的来说,数学会更有趣、更互联、更可信、更快,数学家将解决更难、更有趣的问题。
防止过度依赖 AI 而变得浅薄,深度理解比以往更有价值
Sebastian Bubeck:我完全同意。但我还想谈谈当前进展的一个潜在危险:我们可能会把“城堡的钥匙”交给 AI,人类开始过度信任系统,而不再进行刻苦训练来掌握技能。我们曾经为了理解一个结果,耐心地坐上几个小时、连续几天甚至几周,而现在可能只是让 ChatGPT 用简单的术语解释一下。我担心过度依赖工具会导致理解变得浅薄。所以我认为,对听众和每位听众来说,理解这一点非常重要:专业知识比以往任何时候都更有价值。 我们之所以能从 ChatGPT 中挖掘出这些结果,是因为我们多年的训练和对学科的深度理解。如果没有这些,我们无法推动前沿技术的进步。我们已经看到了例子:并不是成千上万的非数学家突然就能证明新结果了。事实上,我们在社交媒体上看到一些反例,非数学家尝试用这些工具证明定理,写出了几十页的证明,结果全是错的。这是我们必须面对的危险。
Andrew Mayne:这似乎在很多事情上都会成为问题。人们使用现在的模型往往只是为了强化自己想听到的内容。比如“我要提出某种统一场论”之类的。猜猜看?那会难得多。
Ernest Ryu:这种“精神萎缩”的问题在编程中也非常突出。我不是计算机专业的,但我上过课,也自己写过代码。我曾与调试器搏斗,我这个年纪的大多数人都经历过。但现在,在大学课程里你甚至不需要经历这些了。我认为这非常危险。
AI 会帮助年轻一代更快进入科学前沿
Andrew Mayne:我听到一些科学界人士对进展非常乐观,甚至说“我们不再需要科学家了”。
Sebastian Bubeck:不,完全不是。哇,这种说法太可怕了。我真的希望任何在听的人都不要这么说。这与我们的需求恰恰相反。我们比以往任何时候都更需要科学家。这些科学家将更高效、更强大,做出更好的成就。但我们需要他们在自己的手艺上非常、非常精湛。显然 OpenAI 不能包揽一切,现有的机构(学术界)有非常重要的作用。学术界既需要理解进步的速度,也需要在这个过程中重新找回自己的角色。
Andrew Mayne:我的希望和预期是,我们会看到更多人进入科学领域。如果你在人生较晚的阶段决定加入,只要你专注,追赶起来会更容易,因为你拥有世界上最伟大的导师。OpenAI 在 ChatGPT 中加入了视觉解释工具。仅仅因为 AI 模型在某个基准测试中登顶,并不意味着任务完成了。这就像:“我们解决了小学数学,恭喜大家,AI 完工了。”不,还有下一个关卡,再下一个关卡,而这些都需要人类。
Sebastian Bubeck:是的,它会帮助年轻一代更快地进入科学前沿。如果我十几岁时就有 ChatGPT,那简直不敢想象。我记得当时看麦克斯韦方程组(Maxwell's equations),心想:“这到底是什么意思?他们是怎么想出来的?”现在你可以直接问它,它会解释得非常漂亮。这意义重大,但你仍然需要在此基础上付出艰苦的努力。
Andrew Mayne:我们在代码库之类的地方看到,人们提交的修复并不是真正的修复,诸如此类。你如何解决这个问题?如果我现在是数学界人士或者是期刊编辑,我会感到有点害怕。
Sebastian Bubeck:是的,我认为正如 Ernest 所说,AI 也可以帮上忙。我们可以在系统的另一端配备 AI 智能体,让它们也去检查所有内容,尽可能进行验证。当然,我们不想完全信任 AI 来验证并决定是否接受论文或评论,但我们可以让 AI 智能体标记出具体的潜在问题。比如它会提醒:“嘿,这一部分我不太确定。”这会加速进程,基本上是帮助人类减少需要亲自验证的工作量。
Ernest Ryu:而且我认为数学或代码的社会结构需要做出一些改变,即提交代码的人或控制智能体的人要承担责任。在数学界,已经存在一种文化:如果你发表了一个错误的证明,那会损害你的名誉。当你发表一篇署名文章时,你是在用名誉做担保。我认为我们需要更多这样的约束。
用 ChatGPT 学数学:根据盲点提问,让它提问题
Andrew Mayne:如果有观众或听众对数学感到好奇,也许他们有兴趣但觉得自己不是那种“数学天才”,但又想尝试开始,你会对他们说些什么?
Ernest Ryu:去找 ChatGPT 聊聊。如果你对学习感兴趣,它会非常有帮助。即使在研究层面,当我需要学习一个新概念时,习惯上我会去查维基百科,但那里内容非常晦涩。大概过了 30 秒,我就会想:好吧,让我问问 ChatGPT。我会向它提问并进行追问。这样做时,它能提供非常实用的信息,这些信息是针对我知识中缺失的部分量身定制的,因为我是根据自己的盲点来提问的。
你可以向 ChatGPT 介绍你的数学背景、读过的书、学过的材料,然后让它提出一个既是开放性的、又能以你的专业水平理解的问题。Sebastian 提到过这一点,我觉得人们还没意识到这些大模型能够提出很好的问题,但我认为它们可以。所以,拥有一个可以交流数学和问题的伙伴,你可以让模型帮你解题;一旦有了答案,你可以继续交流并提出下一个问题或相关的变体。这让过程变得更加丰富,尽管你还是独自待在房间里,但这感觉不再是一个孤独的过程。而这正是数学的真正乐趣所在,因为数学本质上是一项社会性的事业。
Andrew Mayne:我觉得趣味智力题也会很有意思。我告诉人们,你可以从“浴缸里能装多少个 M&M 巧克力豆”这种听起来很傻的问题开始。你开始提问,接着会问:去年你读了多少个单词?你会怎么算出来?然后你可以开始一段美妙的对话。不知不觉中,你就开始接触越来越复杂的数学,并意识到它对你的影响。二位,这太棒了。Sebastian,Ernest,非常感谢你们。
Sebastian Bubeck:谢谢。
Ernest Ryu:谢谢邀请我们。
https://www.youtube.com/watch?v=9-TVwv6wtGQ

文章精选:
1.强化学习之父、图灵奖得主 Sutton 隔空回应 图灵奖得主Hinton:目前的 AI “理解不足,调参有余”
