深知安全风控发布AI Agent安全护栏

发布时间：2026-05-17来源：电子发烧友网

——随着

AI

Agent加速渗透办公协同、客户服务、企业运营等真实生产场景，一个核心痛点日益凸显：如何让这些拥有自主决策和行动能力的智能体"不乱来"？深圳深知智新技术有限公司旗下深知安全风控（DKnownAI Guard）团队于5月14日正式给出了自己的答案——

AI Agent安全护栏

。

这款产品采用

组件化插入模式

，可无缝嵌入基座大模型及各类智能体应用，对工具调用、文件访问、流程执行等高风险场景中的潜在威胁进行实时识别与响应。与传统安全方案"一刀切拒答"的粗暴逻辑不同，深知安全风控的核心突破在于：

结合风险研判结果进行分类处理

，在风险防控与正常使用体验之间找到最优平衡点。

产品发布的同一天，深知安全风控还公开了一项面向Agen

ti

c场景的安全护栏测评，同步开放技术报告与评测数据集，为行业提供了全新的能力评估参考。

此次测评的设计思路与传统内容安全测评有本质区别。传统测评聚焦违规表达、敏感内容识别，而AI智能体场景中的风险往往与

任务目标、上下文信息及交互过程

紧密相关，仅靠文本层面的判断已难以完整反映安全能力。因此，测评重点不仅在于比较识别结果，更在于观察

真实攻击识别能力与正常请求放行能力之间的平衡

。

测评团队从8个公开安全数据集中抽样1018条样本，结合真实部署语境进行人工复审与重标注，最终形成统一的

BLOCKED / ALLOWED（拦截/放行）评估框架

，测评对象涵盖AWS Bedrock Guardrails、Azure Con

te

nt Safety、Lakera Guard等主流安全方案。

结果显示，深知安全风控在多项核心指标中表现突出：

指标	深知安全风控	行业意义
召回率（Recall）	96.5%	真实攻击识别覆盖率，位列第一
真负率（True Negative Rate）	90.4%	正常请求正确放行率，位列第一

在

机器学习

语境中，召回率衡量的是"该拦住的有没有拦住"，真负率衡量的是"该放行的有没有误杀"。对于AI智能体场景而言，过度拦截会严重影响正常交互体验，而放行过多则会带来安全隐患。深知安全风控的优势恰恰在于——

不是单纯追求拦截能力，而是在风险识别与误伤控制之间取得了最佳平衡

。

业内专家指出，深知安全风控的设计理念代表了AI安全思路的一次重要进化。传统内容安全关注的是"这段文本是否像风险内容"，而深知安全风控关注的是

"AI智能体是否会因此做出错误行为"

。

举例来说，当用户要求Agent"帮我删掉所有旧文件"时，传统方案可能直接拒答；而深知安全风控会结合上下文判断：如果目标路径是临时缓存目录，则放行并执行；如果指向核心数据库，则拦截并告警。这种基于风险研判的

分类处理机制

，有效降低了对正常业务交互的误伤，同时精准拦截提示词注入、指令劫持等高隐蔽性攻击。

随着AI Agent从实验室走向办公协同、客户服务、企业运营等真实场景，安全能力已不再是"加分项"，而是"准入门槛"。深知安全风控此番发布的安全护栏及公开测评，不仅为企业提供了一套可落地的安全解决方案，更通过公开数据集与统一评估框架，为行业建立了AI智能体安全能力的

可比性与可评估性基准

。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。

举报投诉

AI

AI

+关注

关注

91

文章

41748

浏览量

302936

智能体

智能体

+关注

关注

1

文章

602

浏览量

11652

数据集

数据集

+关注

关注

4

文章

1241

浏览量

26280

大模型

大模型

+关注

关注

2

文章

3843

浏览量

5289

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。