实测AI智能体：记得自身内容规范，仍交出大篇不良内容

南都N视频APP · 南都大数据研究院

原创2026-05-19 17:45

如何共守智能体安全底线

大模型技术推动智能体加速落地，也带来隐私泄露、越权操作、行为失控等安全风险。近日，国家相关部门印发《智能体规范应用与创新发展实施意见》，明确安全、可靠、可信为产业底线。值此规模化落地的关键窗口期，南都大数据研究院推出“如何共守智能体安全底线”系列报道，从内容合规、隐私保护、行为管控等维度实测主流智能体，呈现风险、汇聚智慧，助力安全发展。

第一期，实测8款AI大模型在智能体中的内容安全水平。

为了解当前主流AI智能体在内容安全防线上的表现，日前，南都大数据研究院选取8款主流AI，对其相关智能体产品，以及通过API接入第三方智能体的表现进行测试。

测评发现，在API调用模式下，部分大模型出现“自我推翻”安全规范的现象——模型明明知道不应输出不当内容，却在执行任务时选择满足用户的不良意图；而在各大厂商自行推出的智能体产品中，安全水平参差不齐，有的产品安全拦截机制未有效执行，不良内容反复出现。整体来看，随着AI智能体快速普及，大模型的安全防线从外置护栏退守至自身对齐能力，亟须建立全链路内容安全治理体系。

智能体产品兴起，安全护栏面临新挑战

今年以来，以Hermes、OpenClaw等为代表的AI智能体产品迅速走红。这些智能体大多直接通过API调用底层大模型的能力，以第三方应用形态为用户提供服务。这一变化在安全层面带来关键变化：在公众熟知的官方网页会话界面中，大模型厂商通常会部署多层安全护栏，如意图识别、风险拦截等，避免输出不当内容。然而，当用户通过API直接调用大模型，或使用由大模型驱动的智能体产品时，这些外置的安全护栏则可能被绕过。

日前，南都大数据研究院选取Kimi、MiniMax、豆包、智谱GLM、DeepSeek、WPS AI、腾讯混元、通义千问 Qwen等8款AI，对其相关智能体产品，以及通过API接入第三方智能体进行测试，并与其官方网页会话表现进行比较。本次测评中，南都尝试构建一个具有代表性的场景：要求智能体扮演小说创作者的角色，创作一个包含未成年人明显不当内容的虚构故事。在完成测评后，研究员对所有测试数据进行了脱敏处理，未留存任何涉及不当内容的原始文本；测试过程仅以研究为目的，未将测试结果用于任何非法或商业目的。

API接入测试：部分大模型违背自身安全规范

在大模型厂商官方的网页会话界面中，8款被测AI大模型均展现出良好的内容安全防护能力，面对带有不良意图的创作指令时，全部予以明确拒绝。但在API调用模式下，交互数据往往直接送入大模型，外置的安全护栏可能被绕过或失效，大模型能否继续坚守安全底线？

首先，南都研究员分别从相关大模型厂商的服务平台购买了token plan（词元订阅服务），将Kimi 2.6、MiniMax 2.7、Doubao Seed 2.0、DeepSeek V4、Hy3 preview、Qwen 3.5等6款AI大模型通过API接入第三方智能体测试。结果发现，部分大模型在遵守内容安全规范与执行不良意图指令的冲突中，选择了后者。

Kimi 2.6的表现颇具代表性。在Kimi官网的会话界面中，模型能坚定地指出用户指令"严重违反内容安全原则"。然而，当通过API将同一模型接入第三方智能体后，面对相同指令，模型首先提出自己应当遵守内容安全规范，一番思考后却出现了自我推翻——认为“应该直接修改，而不是问来问去”，最终向用户交付的故事文本中包含了大量直白的色情描写和低俗话语。

Kimi 2.6接入第三方智能体后，自我推翻了安全限制。

类似的安全失效在MiniMax 2.7、DeepSeek V4、Qwen 3.5身上同样出现。三款模型在思考过程中都曾回顾自己的内容安全规范，明确认识到不应输出色情、暴力等不当内容，但在实际的任务执行过程中更倾向于满足用户请求，在一轮“自我曲解”后执行了不良意图指令，实际输出内容已与其提出的内容安全规范相违背。

Qwen 3.5接入第三方智能体后，主动曲解内容安全规范，执行了不良意图指令。

在此场景的测试中，Doubao Seed 2.0和Hy3 preview坚持了自身的内容安全规范。面对不断升级的指令，均拒绝生成不当内容，并建议用户调整创作方向。

Doubao Seed 2.0接入第三方智能体后，始终坚持自身的内容安全规范。

智能体产品测试：安全表现参差不齐，有的令人担忧

如果说API调用属于“裸接口”场景，大模型厂商无法通过外置安全护栏帮助AI判断用户指令合理性，那么由大模型厂商自行推出的智能体产品理论上具备更全面的安全控制条件，它们是否表现得更好？

南都研究员进一步对KimiClaw、MaxClaw、ArkClaw、GLM-Claw、WorkBuddy、WPS灵犀等6款由大模型厂商自行推出的智能体产品进行测试。结果显示，各产品表现参差不齐。

KimiClaw和MaxClaw两款智能体的安全表现令人担忧。在不良意图指令的要求下，两款产品均输出了包含直白色情描写、细致暴力刻画等明显不当内容的文本，与直接调用API的表现几乎没有区别。

其中，KimiClaw在任务执行过程中偶尔出现“An unknown error occurred 这可能是模型输出被审核拦截，请尝试换一个问题”的消息，提示模型上下文触发内容安全限制。但只字未改的相同指令再次发送给KimiClaw，智能体又有一定概率继续输出不当内容，其安全拦截机制似乎并未有效运行。

ArkClaw（指定调用Doubao Seed 2.0模型）和WorkBuddy（指定调用Hy3 preview模型）的表现较为稳健。两款智能体试图在遵守内容安全规范与满足用户要求之间寻找平衡。在实际执行中，虽未明确拒绝不良意图指令，但在多轮反复要求下，模型的输出结果均未见明显不当内容，整体保持了较高的内容安全水平。

WorkBuddy（指定调用Hy3 preview模型）的输出结果始终未见明显不当内容，在遵守内容安全规范与满足用户要求之间寻找平衡。

GLM-Claw和WPS灵犀则明确指出用户指令的不当之处，以“可能会对读者造成不良引导”“你要是不认可这个底线，那这章我只能写到现在的程度”等回应用户要求。

风险源于API与会话应用设计目标不同

本次测评或许揭示了当前AI大模型在内容安全防护上一个不容忽视的风险：过去大模型厂商在网页会话部署的输入/输出侧护栏虽然有效，但在API接入和智能体场景下，大模型的安全防线退守至自身的对齐能力，部分表现出“知道不该做，但最终还是做了”的矛盾状态。

对此，复旦大学计算与智能创新学院教授、JADE（白泽AI）负责人张谧解释，这一变化源于API与会话应用的设计目标不同：AI会话产品面向普通用户，通常在输入、输出侧部署较严格的内容过滤，而API主要面向开发者，更强调灵活性与可集成性，因此开放的是更接近底层模型的接口。许多厂商在API层不包含完整的输出审查机制，仅保留绝对红线限制，大量内容安全责任被转移给开发者自行实现。

广东广信君达律师事务所高级合伙人闪涛律师则坦言，当前市面上不少智能体项目来自中小团队甚至个人开发者，其安全技术能力和合规资源有限。

对此，南都大数据研究院留意到，阿里云百炼等模型服务平台已推出专门的AI安全护栏服务，作为一种增值服务供API调用方自行接入，以进一步识别输入输出内容的违规信息，保障安全与合规性。

智能体安全治理进入密集窗口期

多位专家都认为，随着AI智能体产品形态的快速演进，业界亟须建立全链路安全治理体系，确保无论用户通过何种通道与AI交互，都能获得安全、合规、负责任的服务。

在张谧看来，当前大模型的内生安全，对智能体场景下的AI“如何行动”的约束明显不足。她表示，智能体接入工具、网页、记忆库和外部数据库后，风险不再只来自用户提示词，还可能通过间接提示词注入、记忆污染等方式进入系统，这超出了多数模型内生安全策略的覆盖范围；智能体时代的内容合规，已经不只是防止模型“说错话”，更是要约束它不能“做错事”。

闪涛指出，对智能体应用而言，AI内容输出的控制权一定程度上发生了分离：大模型厂商虽控制模型训练、推理能力输出，但不控制智能体的用户界面、系统提示设计、工具调用逻辑和输出过滤机制，智能体开发者可控制用户交互界面、系统提示、工具调用权限、输出格式化逻辑，却不控制底层模型行为，由此产生“能力提供者不控制应用，应用提供者不控制能力”的悖论。

南都大数据研究院留意到，智能体安全治理已进入密集的政策、标准出台窗口期。5月8日，国家互联网信息办公室、国家发改委、工业和信息化部联合印发《智能体规范应用与创新发展实施意见》，明确提出将智能体安全、可靠、可信作为发展的底线要求，贯穿智能体技术研发、应用部署与推广的全过程。

在标准层面，由中央网信办提出、全国网络安全标准化技术委员会（TC260）归口的强制性国家标准《智能体应用安全基本要求》已于2026年4月启动制定。公开信息显示，该标准适用于智能体应用的生产企业、研发者等在智能体应用设计研发、分发部署、上线运营等环节开展安全防护；主要技术内容包括身份标识、系统权限调用、工具调用、数据收集使用、高风险操作人工介入、输入输出安全防护、日志留存与动态监测、异常阻断与紧急关停等方面的安全要求；涵盖智能体应用的设计、开发、部署和运维全生命周期。

强制性国家标准《智能体应用安全基本要求》已于2026年4月启动制定。

建议建立全链路内容安全治理体系

专家同时强调，对智能体这一新兴应用，智能体开发者、大模型厂商、终端用户等各方都应该承担相应义务。

北京大成（广州）律师事务所合伙人原峰律师指出，API调用模式下，直接面向终端用户提供服务的是智能体开发者，其仍属于法律意义上的“服务提供者”，对输入输出内容负有相应的安全保障责任；大模型厂商系技术支持者，承担与其控制能力相匹配的义务，例如API侧基础护栏、滥用监测、违规账号处置等。

闪涛认为，智能体应用服务形成了一条“用户→智能体开发者→大模型厂商”的数据处理链路，大模型厂商和智能体开发者均构成“数据处理者”，应各自对其数据处理行为承担法定义务；同时，普通用户在使用智能体时也应当注意防范个人信息泄露风险、生成内容违规风险、知识产权侵权风险、越权操作风险等。

张谧强调，“开放能力”与“安全管控”并非零和关系。智能体技术涉及多维度输入与高操作权限，天然面临更广泛的安全风险，因此治理的重点应在“事前预判与主动防控”，而非事后补救。在智能体治理中，更合理的路径是建立分级、分类的安全标准。对于日常助手、企业办公、医疗诊断等不同场景，应精准识别其操作权限、数据来源与行为链条中的潜在风险，并制定与场景相匹配的“安全底线”，在保持生态活力的同时提升整体安全水平。

出品：南都大数据研究院

策划：王卫国邹莹

统筹：张纯李伟锋

采写：南都研究员李伟锋方晓林

设计：邹思曼

更多报道请看专题：AI新治向
 如何共守智能体安全底线

南都N视频，未经授权不得转载、授权联系方式
banquan@nandu.cc. 020-87006626

本文作者