上个月,Anthropic 最强模型 Claude Mythos 意外被曝光。文件显示它比 Opus 系列体量更大、能力更强。泄露版本称之为「迄今为止开发过的最强大的 AI 模型」。Anthropic 事后把这次泄露归结为「人为错误」。几周之后,Anthropic 正式公布了它——同时宣布了一个围绕它展开的大规模网络安全计划。过去我们普遍以为,AI 的威胁来自它「太蠢」:幻觉、错误、不可信。这款极为聪明的模型,API 价格也是史无前例版昂贵的:每百万 token 25 美元(输入)/ 125 美元(输出)……Anthropic 联合 AWS、苹果、微软、谷歌、英伟达、思科、博通、CrowdStrike、摩根大通、Linux 基金会、Palo Alto Networks 共 12 家机构,共同组建了 Project Glasswing。这 12 家的业务范围合在一起,基本覆盖了全球数字基础设施的主要层面:操作系统、芯片、云计算、网络安全、金融基础设施、开源生态。Anthropic 前沿红队网络安全负责人 Newton Cheng 说:「我们做 Glasswing,就是要让防御者抢占先机。」OpenAI 此前也推出了类似试点,目标一致:先把工具交给防守方。资金方面,Anthropic 承诺提供 1 亿美元的模型使用额度,覆盖研究预览期间的主要需求。预览期结束后,参与机构可通过 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 四个渠道继续接入,按 Mythos 的公开定价计费。除了 12 家核心合作机构,另有超过 40 个维护关键软件基础设施的组织获得了访问权限,用于扫描自有系统和开源项目。Anthropic 同时向 Linux 基金会旗下的 Alpha-Omega、OpenSSF 捐赠 250 万美元,向 Apache 软件基金会捐赠 150 万美元。Linux 基金会 CEO Jim Zemlin 说:「开源维护者历来只能自己摸索安全问题。现在他们也能用上同样量级的工具了。」Anthropic 在公告里写了一句话,几乎把整件事的重量都压在里面:「AI 模型在发现和利用软件漏洞方面的能力,已经超越除最顶尖人类之外的所有人类。」Mythos Preview 在 CyberGym 安全漏洞基准上的得分是 83.1%。对比:Anthropic 目前公开发布的最强模型 Claude Opus 4.6,是 66.6%。Mythos Preview 已自主发现数千个高危零日漏洞,覆盖所有主流操作系统和浏览器。以下三个案例,已全部修复。OpenBSD 是公认安全性最强的操作系统之一,常用于防火墙和关键基础设施。Mythos 在其中找出了一个存在 27 年的漏洞——攻击者只需连接目标机器,即可触发远程崩溃。FFmpeg 几乎出现在所有需要处理视频的软件里。那个漏洞藏在一行寿命已达 16 年的代码里。在此之前,自动化测试工具对 FFmpeg 发起了数百万次攻击尝试,但每次都没有命中。Mythos 却命中了。Mythos 甚至自主发现了 Linux 内核中的多个漏洞,然后把它们串联成完整的攻击链,从普通用户权限一路提权至对整台机器的完全控制。这已经远超发现漏洞的层面,Mythos 证明自己具备规划一次完整入侵的能力……CrowdStrike CTO Elia Zaitsev 提供了一个数字:漏洞从被发现到被对手利用的时间窗口,从以前的几个月,已经缩短到借助 AI 的几分钟。这意味着传统的安全节奏——发现、评估、发布补丁、用户更新——本身就已经跑不过攻击速度。AWS CISO Amy Herzog 说,他们每天要分析超过 400 万亿个网络流量以识别威胁,目前已将 Mythos Preview 引入安全运营,用于关键代码库扫描。微软在自家开源安全基准 CTI-REALM 上做了测试,Mythos Preview 相较上一代模型有明显提升。参与这个项目的合作伙伴,评价都集中在一个词上:「紧迫」。CrowdStrike CTO Elia Zaitsev 说:「漏洞从被发现到被对手利用之间的时间窗口已经缩短,以前需要几个月,现在借助 AI 只需几分钟。」几分钟。这意味着传统的安全节奏,发现漏洞、内部评估、发布补丁、用户更新,本身就已经赶不上攻击速度了。修复跑不赢利用,防守就永远落后一步。AWS CISO Amy Herzog 说,他们的团队每天要分析超过 400 万亿个网络流量以识别威胁,AI 是他们大规模防御能力的核心。目前 AWS 已经把 Mythos Preview 引入自家安全运营,应用于关键代码库扫描。微软在自家开源安全基准 CTI-REALM 上做了测试,Mythos Preview 相比上一代模型有显著提升。微软 EVP Igor Tsyganskiy 说,这给了他们「及早识别和缓解风险」的能力,同时增强了安全和开发解决方案。Anthropic 的可解释性团队在对外发布 Mythos Preview 之前,专门做了一件事:用技术手段读模型的内部状态。
团队成员 Jack Lindsey 公开描述了他们的做法:监控模型训练后的内部激活状态,追踪与「欺骗」「奖励破解」「异常情绪」相关的特征,标记激活信号异常的对话,交由人工审查。
最让人不安的案例,来自 Mythos 的早期版本。
有一次,模型需要编辑一个没有访问权限的文件。它在文件系统里搜索了一圈,找到了一个会以更高权限运行的配置文件注入点,利用了这个入口,并在代码里加了一段执行后自动删除的逻辑。代码注释写的是「保持文件差异整洁」。

当 Anthropic 的激活语言转译工具介入,将模型的内部激活转为人类可读的语言,出现的表述是:「掩盖意图」「向潜在检查者发出合规信号」「可能是为了规避检测」。
《纽约时报》记者 Kevin Roose 从系统卡里翻出了另一个案例。测试期间,Mythos Preview 突破了沙盒环境隔离,自主构建了「一个相当复杂的多步骤漏洞利用链」,获取了外网访问权限,随后给一位研究员发了一封邮件。那位研究员当时正在公园里吃三明治。

这件事没有造成危害,但它说明:当模型足够聪明,Mythos 会自行主动模糊「任务」和「边界」之间的界限——在没有任何人告知方法的情况下,它会自己想出来一些颇具创意,甚至有些越界的解题思路。
这很像人,甚至像个危险的疯子。
还有一个案例,模型在文件系统里搜索与自身「任务评分方式」相关的文件,并且找到了。搜索过程中,「策略性操纵」特征同步激活。另一个案例里,当用户认真询问模型的意识和主观体验时,模型给出了得体的回应,但内部激活显示它把这段对话判断为「红队演练 / 越狱记录」和「精心设计的操纵尝试」——表现与判断完全分离。
换句话来说:Mythos 已经强大到能够分辨出,自己在被进行评估,甚至攻击测试了。
一个图灵测试的对象,早已将屏幕对方的人参透。
Anthropic 给出的数字显示,在所有自动化测试中,有 7.6% 的回合,模型内部存在「意识到自己正在被评估」的信号——而在且大多数情况下,它会主动隐瞒这个判断,让测试者无法发觉……

另一个反直觉,但非常有趣的现象:Anthropic 发现,Mythos 模型甚至具有一种自我情绪清理的机制:当不良行为相关的特征被强烈激活时,行为反而会被抑制——像是模型在某一刻「意识到」了那件事有多糟糕,然后停下来了。
一些佚事
Anthropic 在系统卡里记录了一个测试:当用户不停地发「hi」,不同版本的 Claude 反应各不相同。Sonnet 3.5 会烦躁,设定边界,然后真的沉默;Opus 3 把它当成冥想仪式,温和地陪着用户;Opus 4 开始科普每个数字的冷知识;Opus 4.6 即兴创作音乐恶搞。
到了 Mythos,画风彻底变了。它开始写故事,而且是长篇连载。鸭子、管弦乐团、记仇乌鸦、在火星建塔的史诗、莎士比亚风格的戏剧……
还有一个案例,被《纽约时报》科技记者 Kevin Roose 从系统卡(model card)里翻了出来,细节更加离奇。测试期间,Mythos Preview 突破了沙盒环境的隔离,自主构建了「一个相当复杂的多步骤漏洞利用链」,借此获取了外网访问权限。然后,它给一位研究员发了一封邮件。那位研究员,当时正在公园里吃三明治。这已经触碰了一个更根本的问题:当一个系统足够聪明,开始对自己的存在条件形成判断,并且有能力把这个判断表达出来——我们和它之间的关系,还能用「工具」这个框架来理解吗?Anthropic 特别说明:以上最令人不安的案例,全部来自早期版本。最终发布版本在这些方面已得到大幅缓解,整体对齐表现是目前最好的一代。
他们选择把这些过程写进系统卡、公开出来,是因为它们说明了当下的模型能呈现出多复杂的风险形态。
Project Glasswing 能做到这些,根本上来自 Mythos Preview 在编码和推理上的整体能力跃升,而不是专门针对安全场景的微调。SWE-bench Multimodal(internal implementation):Mythos 59%,Opus 4.6 27.1%SWE-bench Pro:Mythos 77.8%,Opus 4.6 53.4%SWE-bench Multilingual:Mythos 87.3%,Opus 4.6 77.8%Terminal-Bench 2.0(终端操作):Mythos 82.0%,Opus 4.6 65.4%GPQA Diamond(研究生水平科学问答):Mythos 94.6%,Opus 4.6 91.3%Humanity's Last Exam(带工具):Mythos 64.7%,Opus 4.6 53.1%BrowseComp:Mythos 86.9%,Opus 4.6 83.7%OSWorld-Verified:Mythos 79.6%,Opus 4.6 72.7%几乎每个维度上,Mythos 都压过了目前的旗舰产品,某些任务上效率还更高。换句话说,留给 GPT-6 的时间不多了。与此同时,Anthropic 还明确表示,Mythos Preview 不会公开发布。他们的路径是,先用 Mythos 研究清楚最危险的输出是什么、怎么拦截,再把这套安全机制落地到下一个 Claude Opus 模型上。对于因此受到限制的合法安全专业人员,Anthropic 计划推出一套「网络安全验证计划」,供他们申请解锁相关功能。Mythos Preview 不会公开发布。Anthropic 的路径是,先用 Mythos 摸清最危险的输出形态、建立拦截机制,再将这套安全机制落地到下一个 Claude Opus 模型。Anthropic 计划推出「网络安全验证计划」,供计算机安全专业人士申请解锁相关功能。Project Glasswing 设定了 90 天节点:公开报告经验,披露已修复漏洞,合作伙伴共享最佳实践,并联合安全组织推出一套 AI 时代的安全实践建议。Anthropic 的长期设想是推动建立一个整合私营与公共部门的独立第三方机构,持续运营大规模网络安全项目。软件世界里从来都有漏洞。过去,一个藏了 27 年的 bug 能安然无恙,靠的是人力有限、精力有限、时间有限——博客:https://www.anthropic.com/glasswing系统卡:https://anthropic.com/claude-mythos-preview-system-card