有了更强大的模型,但是Anthropic决定:不公开发布

有了更强大的模型,但是Anthropic决定:不公开发布。
原因也很简单,这款名为Claude Mythos Preview的模型能力太强悍了,尤其网络安全能力超强,能够发现人类多年未曾察觉的安全漏洞,并且能“利用”这些漏洞。
Anthropic公布了一份几百页的 System Card文档,以往通常这类文档是模型性能出众的说明书,但是这次整个文档中的表述,其实充满了“忧虑”。
“最强”反而“不敢发布”
以前的模型发布,拼的是跑分:MMLU 多少?SWE-bench 多少?这次 Mythos Preview 也刷爆了榜单,比目前市面上目前最突出的Opus 4.6模型的能力进一步大幅提升。


如果仅仅是这些能力提升,那这款模型妥妥的再次让Anthropic领先几个身位,但是这款模型的网络安全能力让Anthropic的工程师们不淡定了。
Anthropic指出,“Claude Mythos Preview是我们发布过的网络安全能力最强的模型,在我们的内部评估套件中超越了以往所有模型,并在几乎所有现有的内部及已知外部能力评估中达到了饱和水平(即触及了评估体系的上限)。”
研究人员还发现,Mythos Preview在漏洞发现与利用方面实现了阶跃式的突破:借助一个只需极少人工干预的智能体框架(agentic harness),它能够自主地在经过授权披露计划或安排的开源及闭源软件中发现零日漏洞(zero-days,指此前未曾发现的漏洞)。
换句话说,如果是黑客利用该模型发动网络攻击,将是非常容易的事情。
推Glasswing项目,让行业先做好防御
为此,Anthropic宣布成立名为"Project Glasswing"的行业联合项目,亚马逊、苹果、微软、思科等少数可信的合作伙伴将获得访问Mythos Preview模型的权限,用于排查自身产品漏洞并向业界同行共享发现。
这些合作伙伴的实测,也证明了Mythos Preview模型安全能力的强大。
Anthropic在一篇新闻稿中给了三个具体例子:
Mythos Preview模型在OpenBSD中发现了一个存在了27年的漏洞——OpenBSD 被广泛认为是世界上安全性最高的操作系统之一,通常用于运行防火墙和关键基础设施。该漏洞允许攻击者只需连接到运行该操作系统的机器,就能远程使其崩溃。
它在FFmpeg(一款行业流行的视频编解码库)中发现了一个有16年历史的漏洞,该漏洞隐藏在一行代码中,自动化测试工具曾对其测试了500万次,却从未发现这个问题。
此外,Mythos Preview自主发现并将Linux内核中的几个漏洞链接在一起,实现了从普通用户权限到对机器的完全控制的提权。
安全公司CrowdStrike首席技术官Elia Zaitsev指出:“漏洞被发现和被对手利用之间的窗口期已经急剧缩短——过去需要几个月的时间,现在有了AI,几分钟就能发生。”
AWS副总裁兼首席信息安全官(CISO)Amy Herzog表示,她的团队已经在使用Mythos Preview对关键代码库进行测试,该模型“已经在帮助我们强化代码”。
微软全球CISO Igor Tsyganskiy 指出,在针对微软的开源安全基准测试 CTI-REALM进行测试时,“与之前的模型相比,Claude Mythos Preview展现出了实质性的提升。”
“由于Claude Mythos Preview具备的网络安全能力,我们不打算将其全面公开,”Anthropic前沿红队网络安全主管Newton Cheng表示,“考虑到AI的发展速度,这种能力很快就会扩散,甚至可能落入那些并不致力于安全部署的人手中。其对经济、公共安全和国家安全造成的后果可能是极其严重的。”
Claude Mythos Preview模型的网络安全能力可能是整个行业的一次预演。在接下来的几个月里,前沿大模型的能力可能都会大幅提升,而网络安全能力可能也会赶上来。
如何控制这些能力超强的模型?如何让它真正为人类造福,而不是沦为破坏者的工具,可能现在还没有好的解决方案。
觉得内容有收获,请您加个关注,标个星~ 谢谢您
