深知安全风控发布AI Agent安全护栏
——随着
AI
Agent加速渗透办公协同、客户服务、企业运营等真实生产场景,一个核心痛点日益凸显:如何让这些拥有自主决策和行动能力的智能体"不乱来"?深圳深知智新技术有限公司旗下深知安全风控(DKnownAI Guard)团队于5月14日正式给出了自己的答案——
AI Agent安全护栏
。
这款产品采用
组件化插入模式
,可无缝嵌入基座大模型及各类智能体应用,对工具调用、文件访问、流程执行等高风险场景中的潜在威胁进行实时识别与响应。与传统安全方案"一刀切拒答"的粗暴逻辑不同,深知安全风控的核心突破在于:
结合风险研判结果进行分类处理
,在风险防控与正常使用体验之间找到最优平衡点。
产品发布的同一天,深知安全风控还公开了一项面向Agen
ti
c场景的安全护栏测评,同步开放技术报告与评测数据集,为行业提供了全新的能力评估参考。
此次测评的设计思路与传统内容安全测评有本质区别。传统测评聚焦违规表达、敏感内容识别,而AI智能体场景中的风险往往与
任务目标、上下文信息及交互过程
紧密相关,仅靠文本层面的判断已难以完整反映安全能力。因此,测评重点不仅在于比较识别结果,更在于观察
真实攻击识别能力与正常请求放行能力之间的平衡
。
测评团队从8个公开安全数据集中抽样1018条样本,结合真实部署语境进行人工复审与重标注,最终形成统一的
BLOCKED / ALLOWED(拦截/放行)评估框架
,测评对象涵盖AWS Bedrock Guardrails、Azure Con
te
nt Safety、Lakera Guard等主流安全方案。
结果显示,深知安全风控在多项核心指标中表现突出:
指标 | 深知安全风控 | 行业意义 |
|---|---|---|
召回率(Recall) | 96.5% | 真实攻击识别覆盖率,位列第一 |
真负率(True Negative Rate) | 90.4% | 正常请求正确放行率,位列第一 |
在
机器学习
语境中,召回率衡量的是"该拦住的有没有拦住",真负率衡量的是"该放行的有没有误杀"。对于AI智能体场景而言,过度拦截会严重影响正常交互体验,而放行过多则会带来安全隐患。深知安全风控的优势恰恰在于——
不是单纯追求拦截能力,而是在风险识别与误伤控制之间取得了最佳平衡
。
业内专家指出,深知安全风控的设计理念代表了AI安全思路的一次重要进化。传统内容安全关注的是"这段文本是否像风险内容",而深知安全风控关注的是
"AI智能体是否会因此做出错误行为"
。
举例来说,当用户要求Agent"帮我删掉所有旧文件"时,传统方案可能直接拒答;而深知安全风控会结合上下文判断:如果目标路径是临时缓存目录,则放行并执行;如果指向核心数据库,则拦截并告警。这种基于风险研判的
分类处理机制
,有效降低了对正常业务交互的误伤,同时精准拦截提示词注入、指令劫持等高隐蔽性攻击。
随着AI Agent从实验室走向办公协同、客户服务、企业运营等真实场景,安全能力已不再是"加分项",而是"准入门槛"。深知安全风控此番发布的安全护栏及公开测评,不仅为企业提供了一套可落地的安全解决方案,更通过公开数据集与统一评估框架,为行业建立了AI智能体安全能力的
可比性与可评估性基准
。
AI
AI
+关注
关注
91
文章
41748
浏览量
302936
智能体
智能体
+关注
关注
1
文章
602
浏览量
11652
数据集
数据集
+关注
关注
4
文章
1241
浏览量
26280
大模型
大模型
+关注
关注
2
文章
3843
浏览量
5289
