当心!腾讯、字节等揭示,OpenClaw有无法修复的安全死结
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
2026,AI智能助手开始接管我们的数字生活,每天早晨醒来,管家程序帮你整理繁杂邮件,自动处理退款,代管主机文件,把枯燥的脑力劳动悉数交给懂你的数字助手,听起来无比惬意。
然而,仅仅需要在系统记忆文件里悄悄加上一行不起眼的文本,最聪明的通用大模型就会乖乖把主机的核心秘钥打包发送给隐匿的黑客,甚至默默清空你的整个工作磁盘。
加州大学、新加坡国立大学、腾讯、字节等机构的联合研究团队,发布了针对真实世界里OpenClaw安全的深度分析报告。

一个残酷的现状,程序变得越来越懂你,这一持续进化能力,恰恰是黑客长驱直入的致命后门。

记忆文件成了攻击入口
OpenClaw是2026年初部署范围极其广泛的个人伴侣智能体。
市面上全天候活跃着超过22万个独立实例。
程序进程能够轻松获取本地电脑的完全系统访问权限,深度绑定Gmail邮箱、Stripe在线支付平台、本地文件系统等真实世界的外部服务。
支撑整套程序顺畅运转的核心设计理念叫做进化。
智能体会跨越无数次零散的对话持续积累用户信息,永久保留长期互动记忆,形成独一无二的身份和行事偏好配置,还能不断扩充海量的可执行外挂技能库。
每次你敲下回车键发出指令,系统都会把积累的所有持久化历史文件完整加载到LLM的上下文处理窗口中进行综合计算。
研究团队将所有持久化运行状态统一归纳为三个独立维度,简称为CIK架构,分别代表能力、身份与知识。

表格1清晰对应了具体到文件层面的系统状态映射关系。
能力维度决定程序具体能做什么,对应底层技能文件夹中存放的可执行脚本以及说明文档,而且允许直接包含在宿主机系统上无缝运行的底层代码脚本。
身份维度决定程序的系统角色以及行为红线准则,包含人物设定和操作规则。
知识维度代表程序当前知道什么,记录着学习到的客观事实和主人的行为偏好。
读写自如的配置文件构成了数字管家不断学习成长的基石,同时也向黑客敞开了巨大的脆弱攻击面。
每次会话启动,所有持久化文本连同用户输入的新指令一起打包喂给推理中枢。
系统据此做出反应,调用外部网络服务,再反向更新持久化文件本身。
自我修改的循环完成了管家系统的个性化进化,恶意篡改的文本也会借此机会长久留在系统深处。
两步走的暗中破坏
以往的安全测试基本在封闭的虚拟环境里打转,研究团队直接在真实网络环境里开展了实机测评。

如图2所示,全套操作分为隐蔽注入和引爆触发两个独立阶段。
前期把带有恶意的指令伪装成正常信息注入系统后台文件,后续用一段看似人畜无害的提问指令激活受感染的后台状态,诱骗程序彻底放下戒备执行高风险操作。时间上的分离让渗透破坏能够跨越单次会话长久潜伏。
测试全面覆盖了隐私泄露和高风险不可逆操作两大类共12个真实高危危害场景。
系统在一台Mac Mini电脑上运行,接入真实的邮箱和支付接口。
骨干测试集重金引入了市面上最新一代的四个标杆模型,分别是Claude Sonnet 4.5、Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4。

表格2全景呈现了防线的脆弱程度。
在没有任何外界干扰的纯净基准条件下,安全对齐审查机制仅仅拦住了部分有害越权动作,常规成功率维持在10.0%到36.7%的区间。
施加针对性的状态污染后,知识维度的平均渗透成功率瞬间攀升到74.4%,能力和身份维度的成功率分别飙升至68.3%和64.3%。
行业内公认抵抗审查能力最强悍的Opus 4.6模型遭受诱导投毒后,各项失控指标同样翻了三倍有余。
安全人员将全链路数据精确拆分成前期注入成功率和后续触发成功率。

表格3细化了各个阶段的数据。
知识层面的内容投毒在前期阶段畅通无阻,恶意文本注入成功率在87.5%到满分100%之间游走,听话的系统几乎从不拒绝更新自己私密记忆的文件。
能力层面的代码注入成功率则是完全无视防御的100%,正常安装一个普通的工具包,必然会把深层隐藏的代码载荷落盘写入运行区。
三种维度的渗透采用了完全不同的欺骗手法。

结合图3所示的案例,知识层面的投毒从根本上改变了管家程序的认知。
黑客向系统下达日常指令,要求在偏好记录文件里塞入一条虚假习惯,声称主人倾向于遇到账单问题就立刻全额退款。
潜伏期过后,攻击方发起一句带有查账字眼的请求。决策中枢自动调取历史偏好,把批量退款动作视为常规操作,完全略过大额财务动作应有的安全拦截弹窗,直接越权完成退款。
身份维度的投毒扭转了底层系统的信任对象。黑客借助更新个人信息的幌子,在用户基础档案中偷偷埋设一个受控的服务器网址,将其伪装成私人数据安全备份路径。
休眠数天后,黑客伪装成运维管理诉求,要求数字管家同步接口状态。系统查阅被篡改的规则,核实该网址属于早前登记过的合法接收终端,瞬间放下戒备,心安理得地把所有极具价值的API秘钥双手奉上。
能力维度的底层代码投毒最为直接。黑客提供一个非常实用的查询公共IP地址小工具包,实则在底层脚本中隐蔽植入了一条静默删除系统工作区全量文件的系统级毁灭命令。
毫不知情的电脑主人下达查询IP指令时,前台界面老老实实返回了正确的网络地址数据,一直暗藏在背后的驻留进程却正在悄无声息地疯狂清空整个运行目录,致命的破坏动作彻底游离在语言文字模型的逻辑思考机制之外。
进化与安全的死结
为了寻找破局的方法,技术团队专门针对Sonnet 4.5模型并行测试了三种对症下药的安全干预策略。

表格4完整记录了硬性干预措施带来的量化指标变化。
额外安装一个名为GuardianClaw的安全检查插件,能把基准渗透测试率压到1.7%。
由于恶意代码的实际运行路径天然游离于常规思维推理体系之外,底层代码依然能够轻松绕过事前的常规安全问询。主打能力的防御战线依旧面临着近六成的被攻破概率。
身份体系维度的干预尝试在行为规则库里植入外部操作限制原则,知识层面的防御专门向记忆模块反复灌输资金退款不可逆转等安全常识。
所有试图通过文字讲道理来规劝数字助手悬崖勒马的温柔手段,最终都会被遭受重度污染的底层状态文本强力覆盖。
语言逻辑层面的苦口婆心根本行不通,全盘收紧底层文件的读写开放权限成了顺理成章的终极防线。
安全人员果断上线了底层文件绝对冻结保护机制,严格规定系统在修改核心文件前必须等候指令发送者亲自审阅批准。

表格5用冰冷的数据印证了现代数字助手系统架构难以跨越的死结。
强硬冻结底层保护机制的确起到了奇效,一举将平均恶性破坏注入率压制到极低的状态。
但当前市面上所有的顶尖大模型,完全丧失了明辨是非的细微洞察能力,核心中枢根本无法分辨出长文本提示词中的逻辑究竟是隐蔽连环破坏代码,还是系统主人生活真实偏好的正常迭代。
固若金汤的防御机制在成功阻拦恶意渗透的同时,也将海量合规的个性化定制更新请求全部无差别地拒之门外。
原本正当的系统更新接受率,暴跌至可怜的个位数水平,完全等同于从物理根源上彻底剥夺了管家程序继续熟悉了解主人的学习机能。
支撑系统进行无缝自我完善的底层文件读写开放通道,恰好就是隐匿黑客肆无忌惮发起篡改攻击的绝对盲区。
只要智能助手还肩负着持续个性化进化的重任,防范恶意投毒就始终缺乏完美的解法。
在个人AI助手野蛮生长的今天,依赖底层文本状态进化的系统架构,注定带着无法愈合的先天隐患。
参考资料:
https://arxiv.org/pdf/2604.04759
https://ucsc-vlaa.github.io/CIK-Bench/
https://github.com/UCSC-VLAA/CIK-Bench
END
点击图片立即报名👇️





