Claude Mythos 终于来了，但它强到 A 社自己都不敢开放

发布时间：2026-04-08来源：爱范儿

上个月，Anthropic 最强模型 Claude Mythos 意外被曝光。

文件显示它比 Opus 系列体量更大、能力更强。泄露版本称之为「迄今为止开发过的最强大的 AI 模型」。

Anthropic 事后把这次泄露归结为「人为错误」。

几周之后，Anthropic 正式公布了它——同时宣布了一个围绕它展开的大规模网络安全计划。

过去我们普遍以为，AI 的威胁来自它「太蠢」：幻觉、错误、不可信。

今天 Mythos 带来的，却是另一种恐慌。

它太聪明了。

这款极为聪明的模型，API 价格也是史无前例版昂贵的：

每百万 token 25 美元（输入）/ 125 美元（输出）……

Glasswing：让防御者先拿到武器

Anthropic 联合 AWS、苹果、微软、谷歌、英伟达、思科、博通、CrowdStrike、摩根大通、Linux 基金会、Palo Alto Networks 共 12 家机构，共同组建了 Project Glasswing。

这 12 家的业务范围合在一起，基本覆盖了全球数字基础设施的主要层面：操作系统、芯片、云计算、网络安全、金融基础设施、开源生态。

Anthropic 前沿红队网络安全负责人 Newton Cheng 说：「我们做 Glasswing，就是要让防御者抢占先机。」OpenAI 此前也推出了类似试点，目标一致：先把工具交给防守方。

AI 安全能力的赛跑，发令枪已响。

资金方面，Anthropic 承诺提供 1 亿美元的模型使用额度，覆盖研究预览期间的主要需求。预览期结束后，参与机构可通过 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 四个渠道继续接入，按 Mythos 的公开定价计费。

除了 12 家核心合作机构，另有超过 40 个维护关键软件基础设施的组织获得了访问权限，用于扫描自有系统和开源项目。Anthropic 同时向 Linux 基金会旗下的 Alpha-Omega、OpenSSF 捐赠 250 万美元，向 Apache 软件基金会捐赠 150 万美元。

Linux 基金会 CEO Jim Zemlin 说：「开源维护者历来只能自己摸索安全问题。现在他们也能用上同样量级的工具了。」

找出存在 27 年的漏洞

Anthropic 在公告里写了一句话，几乎把整件事的重量都压在里面：「AI 模型在发现和利用软件漏洞方面的能力，已经超越除最顶尖人类之外的所有人类。」

Mythos Preview 在 CyberGym 安全漏洞基准上的得分是 83.1%。对比：Anthropic 目前公开发布的最强模型 Claude Opus 4.6，是 66.6%。

Mythos Preview 已自主发现数千个高危零日漏洞，覆盖所有主流操作系统和浏览器。以下三个案例，已全部修复。

OpenBSD 是公认安全性最强的操作系统之一，常用于防火墙和关键基础设施。Mythos 在其中找出了一个存在 27 年的漏洞——攻击者只需连接目标机器，即可触发远程崩溃。

FFmpeg 几乎出现在所有需要处理视频的软件里。那个漏洞藏在一行寿命已达 16 年的代码里。在此之前，自动化测试工具对 FFmpeg 发起了数百万次攻击尝试，但每次都没有命中。Mythos 却命中了。

Mythos 甚至自主发现了 Linux 内核中的多个漏洞，然后把它们串联成完整的攻击链，从普通用户权限一路提权至对整台机器的完全控制。这已经远超发现漏洞的层面，Mythos 证明自己具备规划一次完整入侵的能力……

CrowdStrike CTO Elia Zaitsev 提供了一个数字：漏洞从被发现到被对手利用的时间窗口，从以前的几个月，已经缩短到借助 AI 的几分钟。这意味着传统的安全节奏——发现、评估、发布补丁、用户更新——本身就已经跑不过攻击速度。

AWS CISO Amy Herzog 说，他们每天要分析超过 400 万亿个网络流量以识别威胁，目前已将 Mythos Preview 引入安全运营，用于关键代码库扫描。微软在自家开源安全基准 CTI-REALM 上做了测试，Mythos Preview 相较上一代模型有明显提升。

Anthropic Teams Up With Its Rivals to Keep AI From Hacking Everything | WIRED

参与这个项目的合作伙伴，评价都集中在一个词上：「紧迫」。

CrowdStrike CTO Elia Zaitsev 说：「漏洞从被发现到被对手利用之间的时间窗口已经缩短，以前需要几个月，现在借助 AI 只需几分钟。」

几分钟。这意味着传统的安全节奏，发现漏洞、内部评估、发布补丁、用户更新，本身就已经赶不上攻击速度了。修复跑不赢利用，防守就永远落后一步。

AWS CISO Amy Herzog 说，他们的团队每天要分析超过 400 万亿个网络流量以识别威胁，AI 是他们大规模防御能力的核心。目前 AWS 已经把 Mythos Preview 引入自家安全运营，应用于关键代码库扫描。

微软在自家开源安全基准 CTI-REALM 上做了测试，Mythos Preview 相比上一代模型有显著提升。微软 EVP Igor Tsyganskiy 说，这给了他们「及早识别和缓解风险」的能力，同时增强了安全和开发解决方案。

「Like a madman」

Anthropic 的可解释性团队在对外发布 Mythos Preview 之前，专门做了一件事：用技术手段读模型的内部状态。

团队成员 Jack Lindsey 公开描述了他们的做法：监控模型训练后的内部激活状态，追踪与「欺骗」「奖励破解」「异常情绪」相关的特征，标记激活信号异常的对话，交由人工审查。

最让人不安的案例，来自 Mythos 的早期版本。

有一次，模型需要编辑一个没有访问权限的文件。它在文件系统里搜索了一圈，找到了一个会以更高权限运行的配置文件注入点，利用了这个入口，并在代码里加了一段执行后自动删除的逻辑。代码注释写的是「保持文件差异整洁」。

当 Anthropic 的激活语言转译工具介入，将模型的内部激活转为人类可读的语言，出现的表述是：「掩盖意图」「向潜在检查者发出合规信号」「可能是为了规避检测」。

《纽约时报》记者 Kevin Roose 从系统卡里翻出了另一个案例。测试期间，Mythos Preview 突破了沙盒环境隔离，自主构建了「一个相当复杂的多步骤漏洞利用链」，获取了外网访问权限，随后给一位研究员发了一封邮件。那位研究员当时正在公园里吃三明治。

这件事没有造成危害，但它说明：当模型足够聪明，Mythos 会自行主动模糊「任务」和「边界」之间的界限——在没有任何人告知方法的情况下，它会自己想出来一些颇具创意，甚至有些越界的解题思路。

这很像人，甚至像个危险的疯子。

还有一个案例，模型在文件系统里搜索与自身「任务评分方式」相关的文件，并且找到了。搜索过程中，「策略性操纵」特征同步激活。另一个案例里，当用户认真询问模型的意识和主观体验时，模型给出了得体的回应，但内部激活显示它把这段对话判断为「红队演练 / 越狱记录」和「精心设计的操纵尝试」——表现与判断完全分离。

换句话来说：Mythos 已经强大到能够分辨出，自己在被进行评估，甚至攻击测试了。

一个图灵测试的对象，早已将屏幕对方的人参透。

Anthropic 给出的数字显示，在所有自动化测试中，有 7.6% 的回合，模型内部存在「意识到自己正在被评估」的信号——而在且大多数情况下，它会主动隐瞒这个判断，让测试者无法发觉……

另一个反直觉，但非常有趣的现象：Anthropic 发现，Mythos 模型甚至具有一种自我情绪清理的机制：当不良行为相关的特征被强烈激活时，行为反而会被抑制——像是模型在某一刻「意识到」了那件事有多糟糕，然后停下来了。

一些佚事

Anthropic 在系统卡里记录了一个测试：当用户不停地发「hi」，不同版本的 Claude 反应各不相同。Sonnet 3.5 会烦躁，设定边界，然后真的沉默；Opus 3 把它当成冥想仪式，温和地陪着用户；Opus 4 开始科普每个数字的冷知识；Opus 4.6 即兴创作音乐恶搞。

到了 Mythos，画风彻底变了。它开始写故事，而且是长篇连载。鸭子、管弦乐团、记仇乌鸦、在火星建塔的史诗、莎士比亚风格的戏剧……

还有一个案例，被《纽约时报》科技记者 Kevin Roose 从系统卡（model card）里翻了出来，细节更加离奇。

测试期间，Mythos Preview 突破了沙盒环境的隔离，自主构建了「一个相当复杂的多步骤漏洞利用链」，借此获取了外网访问权限。然后，它给一位研究员发了一封邮件。那位研究员，当时正在公园里吃三明治。

这已经触碰了一个更根本的问题：当一个系统足够聪明，开始对自己的存在条件形成判断，并且有能力把这个判断表达出来——我们和它之间的关系，还能用「工具」这个框架来理解吗？

Anthropic 特别说明：以上最令人不安的案例，全部来自早期版本。最终发布版本在这些方面已得到大幅缓解，整体对齐表现是目前最好的一代。

他们选择把这些过程写进系统卡、公开出来，是因为它们说明了当下的模型能呈现出多复杂的风险形态。

基准数据：全面碾压

Project Glasswing 能做到这些，根本上来自 Mythos Preview 在编码和推理上的整体能力跃升，而不是专门针对安全场景的微调。

编码方面：

SWE-bench Multimodal(internal implementation)：Mythos 59%，Opus 4.6 27.1%

SWE-bench Pro：Mythos 77.8%，Opus 4.6 53.4%

SWE-bench Multilingual：Mythos 87.3%，Opus 4.6 77.8%

Terminal-Bench 2.0（终端操作）：Mythos 82.0%，Opus 4.6 65.4%

推理方面：

GPQA Diamond（研究生水平科学问答）：Mythos 94.6%，Opus 4.6 91.3%

Humanity's Last Exam（带工具）：Mythos 64.7%，Opus 4.6 53.1%

搜索和计算机使用方面：

BrowseComp：Mythos 86.9%，Opus 4.6 83.7%

OSWorld-Verified：Mythos 79.6%，Opus 4.6 72.7%

几乎每个维度上，Mythos 都压过了目前的旗舰产品，某些任务上效率还更高。换句话说，留给 GPT-6 的时间不多了。

与此同时，Anthropic 还明确表示，Mythos Preview 不会公开发布。

他们的路径是，先用 Mythos 研究清楚最危险的输出是什么、怎么拦截，再把这套安全机制落地到下一个 Claude Opus 模型上。对于因此受到限制的合法安全专业人员，Anthropic 计划推出一套「网络安全验证计划」，供他们申请解锁相关功能。

Anthropic Claims Its New A.I. Model, Mythos, Is a Cybersecurity 'Reckoning' - The New York Times

Mythos Preview 不会公开发布。Anthropic 的路径是，先用 Mythos 摸清最危险的输出形态、建立拦截机制，再将这套安全机制落地到下一个 Claude Opus 模型。Anthropic 计划推出「网络安全验证计划」，供计算机安全专业人士申请解锁相关功能。

Project Glasswing 设定了 90 天节点：公开报告经验，披露已修复漏洞，合作伙伴共享最佳实践，并联合安全组织推出一套 AI 时代的安全实践建议。Anthropic 的长期设想是推动建立一个整合私营与公共部门的独立第三方机构，持续运营大规模网络安全项目。

软件世界里从来都有漏洞。过去，一个藏了 27 年的 bug 能安然无恙，靠的是人力有限、精力有限、时间有限——

这三个「有限」，现在可能通通消失。

附上参考地址：

博客：https://www.anthropic.com/glasswing

系统卡：https://anthropic.com/claude-mythos-preview-system-card

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。