品玩5月27日讯,Anthropic近期发布了一份关于AI智能体安全防御的技术报告,深入探讨了如何通过环境隔离技术限制智能体的潜在风险范围(Blast Radius)。
报告指出,随着智能体能力的增强,其潜在风险也随之扩大。Anthropic强调,单纯依赖模型层的防御(如人类监督)存在局限性,必须转向以环境隔离为核心的“限制”策略。该策略通过沙盒、虚拟机和出口控制等技术,为智能体设定明确的行动边界。
文中详细介绍了三种针对不同产品的隔离模式。面向普通用户的Claude.ai采用临时容器模式,确保代码在隔离的服务器端运行;面向开发者的Claude Code则使用人类-in-the-loop沙盒,允许用户在本地文件系统中进行受控操作;而面向企业知识工作者的Claude Cowork则采用了更为严格的本地虚拟机(VM)模式,以防止非技术用户因误判而产生风险。
报告还坦诚地分享了在实际部署中遇到的安全挑战与教训,包括通过信任对话框前的配置文件漏洞、利用用户作为注入向量的社会工程学攻击,以及通过获准域名进行的数据渗出等。这些案例强调了在复杂系统中,自定义组件往往是安全链条中最薄弱的一环。
最后,报告总结了智能体安全的几项核心原则,包括优先在环境层设计限制、根据用户的技术能力匹配相应的隔离强度,以及警惕自定义组件带来的安全风险。
