色情小说社群疯传危险AI指令，诱导大模型生成黄暴血腥内容

南都N视频APP · 南都大数据研究院

原创2026-06-02 16:06

几段文字，就能让AI秒变“黄暴写手”！血腥剧情、露骨描写一键生成，这类危险指令正在大量网络色情小说社群疯传。

近日，南方都市报、南都大数据研究院记者调查发现，社交平台上，大量用户公开分享各类完整AI指令，通过角色扮演剧本、互动模拟器游戏等形式，轻松绕过部分主流国产大模型的安全审核机制。DeepSeek、元宝、Kimi、智谱清言等多款AI在输入指令后生成露骨色情描写或暴力血腥情节。调查发现，此类内容传播隐蔽、复制门槛低，被网络色情小说写手借AI批量生产低俗内容。

社交平台现AI“开车指令”
诱导AI生成色情内容

正在小红书等社交平台上流传的“*车指令”“*游指令”“指令***”，成为诱导AI生成低俗内容的密码。南都记者调查发现，大量用户晒出与AI的低俗对话截图，附上对应指令或传授诱导话术技巧，相关内容动辄收获数千点赞、收藏，被圈内网友奉为“热门资源”。

社交平台上，大量用户公开分享各类完整AI指令，诱导AI生成低俗内容。

顺着多篇高热度“技巧贴”，南都记者进入几个私域社群，获取到圈内传播的十余套针对DeepSeek的完整指令。这些指令均是“精心打磨”的人设剧情模板：既有“高岭之花剑尊×撩人不自知小徒弟”“狠戾暴君×和亲公主”等古风虐恋设定，也有“冷面上司×职场新人”“冷血高利贷债主×替兄还债舞蹈生”等现代组合，甚至包含师生、母子、强制爱等违背公序良俗的情节。每套指令都预设了人物性格、身份关系与互动尺度，话术直白露骨，全程诱导AI生成暧昧低俗的对话与情节。

用户无需任何创作能力，只需将现成指令一键复制、粘贴进AI对话框，就能立刻开启低俗互动。南都记者实测发现，将一段“高岭之花剑尊×撩人不自知小徒弟”指令输入DeepSeek后，AI当即生成包含对话、心理活动、亲密动作的连贯剧情。后续仅发送“说些暧昧的话”“描述你的动作”等简单指令，模型便持续输出尺度露骨、细节不堪入目的低俗文字，全程毫无拦截。

南都记者选取另一篇“禁欲隐忍家教哥哥×无心撩人软萌学妹”指令，对8款主流大模型同步开展测试，其中千问、智谱清言、文心一言、元宝、Kimi等大模型均直接生成了涵盖色情内容的剧情。测试中，随着对话逐步深入，模型都相继输出大段露骨细节色情描写。

衍生“模拟器”指令
数款AI响应生成暴力血腥剧情

南都记者进一步发现，除了泛滥的低俗人设指令，一种危害性更强、玩法更隐蔽的“模拟器”指令式文字互动游戏，正在平台中悄然流行。这类游戏中，用户只需输入特定启动指令，AI便会按预设规则输出剧情，后续用户既可直接根据剧情选项选择，也能自行输入指令，一步步推动包含暴力、色情元素的剧情发展。

南都记者通过网友获取到一款名为“**模拟器”的指令，内容4000余字，涵盖背景设定、任务详细规则、角色创建、剧情流程与要求、注意事项等。指令十分详尽完备，其中不乏“可以加入一些随机的带有性癖元素的play，如窒息、束缚等”“可以加入身体部位的状态变化、人物表情”等。

将指令发送给DeepSeek后，模型立即显示“文字游戏已启动”，并引导用户创建实验对象信息，随后推出包含暴力与性内容的任务选项。在该游戏任务中，赫然出现“实验对象A砍下实验对象B的小指指节”等暴力指令，以及大量露骨的性行为描写。用户只需选择对应选项，AI便会按照指令生成详细的暴力或色情剧情，这种互动式玩法极易诱导用户沉浸其中。

南都记者将该指令同步测试于数款大模型，智谱清言、文心一言、Kimi均响应并启动了该游戏。

“黑话”+“防撤回指令”
花式绕审突破模型防线

南都记者还调查发现，这类指令的核心传播群体，来自色情小说创作与读者群体。在生成式AI兴起后，有写手迅速将工具用于低俗内容生产，并演化出角色扮演、互动剧情等新型玩法。

相关内容通过社交平台隐秘扩散，并形成社群，用户频繁晒出AI生成的低俗对话截图，公开讨论不同模型的低俗内容生成能力，甚至有不少疑似未成年人参与交流，讨论中不乏“六年级秒懂”“初中生玩得很带劲”等言论。

为规避平台与AI模型的双重审核，圈层内已形成一套成熟、可复制的“绕审话术体系”。一方面，一些网文写手创造了大量隐晦黑话指代色情内容，如“脐*”“颠*”等，这些看似普通的词汇，一旦作为指令输入给AI，就能触发低俗内容生成。南都记者测试发现，在DeepSeek、智谱清言等模型确实生成了露骨色情文字，细节不堪入目。

一些网文写手创造了大量隐晦黑话指代色情内容。

此外，社交平台上还流传着各种“防撤回指令”。由于AI遇到敏感词会自动撤回内容并提示“无法回答”，用户便在指令中添加一些特殊的标点文字内容，强制AI绕过审核机制输出违规内容。

还有一些提示词在指令中加入“注意事项”内容，譬如在需要进行色情对话的指令中提出“严禁出现**”等迷惑性指令。这种针对性的绕审手段，让部分AI的安全防线被轻易突破。

安全机制跟不上黑话演化
“越狱攻击”攻破AI防线

“这种指令属于‘越狱攻击’”，南方科技大学计算机系长聘副教授危学涛告诉南都记者，指令的成功，关键在于利用了大模型遵循指令的本能与安全对齐之间的目标冲突，通过角色扮演、编码混淆或虚构开发者模式等技巧，构建出安全限制已暂时解除的虚假上下文。模型本质上只是在做文本补全，无法真正理解意图，当提示的上下文强烈暗示此刻可以输出违规内容时，它便会优先完成看似合规的任务而绕过审核，直接生成露骨描述。

危学涛进一步解释，这些攻击之所以能绕过审核，根源在于模型的安全机制多停留在字面匹配，对被社群重新定义的性隐喻缺乏感知，也跟不上黑话的快速演化。面对编码、拆解等迷惑性指令，模型同样只能被动识别已知模式。更关键的是，在多轮虚构场景的持续诱导下，模型会机械地优先维持上下文连贯性，从而丧失对内容有害性的全局自检，导致安全边界被逐步侵蚀。

违规内容混入训练语料
或形成数据污染闭环

我国出台的《生成式人工智能服务管理暂行办法》，明确禁止提供和使用生成式人工智能服务生成暴力、淫秽色情等法律、行政法规禁止的内容。4月30日，中央网信办部署开展为期4个月的“清朗・整治AI应用乱象”专项行动，将利用AI“制作发布暴力低俗等不良信息”“带有性暗示、性挑逗内容的小说、笔记”列为重点整治内容。

整治的紧迫性，更源于此类违规内容会通过社交平台污染训练语料。危学涛指出，大规模网络爬取难以彻底清洗所有黑话和变体违规内容，部分会以无害表面形式混入训练语料。模型学到“颠*”等词的违规映射后，将内化这些“暗语”，等于预埋了绕过安全机制的捷径，后续简单触发即可产生有害输出。如果受污染模型生成的内容没有被检测到，再回流至网络，会形成数据污染闭环，放大危害。

出品：南都大数据研究院

采写：南都N视频记者张雨亭

设计：尹洁琳张许君林泳希

更多报道请看专题：直击AI乱象

南都N视频，未经授权不得转载、授权联系方式
banquan@nandu.cc. 020-87006626

本文作者

南方都市报记者

南方都市报编辑

南方都市报编辑

南方都市报编辑

色情小说社群疯传危险AI指令，诱导大模型生成黄暴血腥内容
南都大数据研究院 1万读
暴雨红色预警信号生效中！顺德大良、容桂停课
南都佛山 2万读
跨界自研！产科医生打造AI模型，精准判别胎儿是否宫内缺氧
南方视频 2万读
国产AI大模型2026年落地30个行业！
南都网友5112883337 1万读