Anthropic 发布AI智能体安全防御技术报告

发布时间：2026-05-26来源：品玩

品玩5月27日讯，Anthropic近期发布了一份关于AI智能体安全防御的技术报告，深入探讨了如何通过环境隔离技术限制智能体的潜在风险范围（Blast Radius）。

报告指出，随着智能体能力的增强，其潜在风险也随之扩大。Anthropic强调，单纯依赖模型层的防御（如人类监督）存在局限性，必须转向以环境隔离为核心的“限制”策略。该策略通过沙盒、虚拟机和出口控制等技术，为智能体设定明确的行动边界。

文中详细介绍了三种针对不同产品的隔离模式。面向普通用户的Claude.ai采用临时容器模式，确保代码在隔离的服务器端运行；面向开发者的Claude Code则使用人类-in-the-loop沙盒，允许用户在本地文件系统中进行受控操作；而面向企业知识工作者的Claude Cowork则采用了更为严格的本地虚拟机（VM）模式，以防止非技术用户因误判而产生风险。

报告还坦诚地分享了在实际部署中遇到的安全挑战与教训，包括通过信任对话框前的配置文件漏洞、利用用户作为注入向量的社会工程学攻击，以及通过获准域名进行的数据渗出等。这些案例强调了在复杂系统中，自定义组件往往是安全链条中最薄弱的一环。

最后，报告总结了智能体安全的几项核心原则，包括优先在环境层设计限制、根据用户的技术能力匹配相应的隔离强度，以及警惕自定义组件带来的安全风险。

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。