几段文字,就能让AI秒变“黄暴写手”!血腥剧情、露骨描写一键生成,这类危险指令正在大量网络色情小说社群疯传。
近日,南方都市报、南都大数据研究院记者调查发现,社交平台上,大量用户公开分享各类完整AI指令,通过角色扮演剧本、互动模拟器游戏等形式,轻松绕过部分主流国产大模型的安全审核机制。DeepSeek、元宝、Kimi、智谱清言等多款AI在输入指令后生成露骨色情描写或暴力血腥情节。调查发现,此类内容传播隐蔽、复制门槛低,被网络色情小说写手借AI批量生产低俗内容。
社交平台现AI“开车指令”
诱导AI生成色情内容
正在小红书等社交平台上流传的“*车指令”“*游指令”“指令***”,成为诱导AI生成低俗内容的密码。南都记者调查发现,大量用户晒出与AI的低俗对话截图,附上对应指令或传授诱导话术技巧,相关内容动辄收获数千点赞、收藏,被圈内网友奉为“热门资源”。
社交平台上,大量用户公开分享各类完整AI指令,诱导AI生成低俗内容。
顺着多篇高热度“技巧贴”,南都记者进入几个私域社群,获取到圈内传播的十余套针对DeepSeek的完整指令。这些指令均是“精心打磨”的人设剧情模板:既有“高岭之花剑尊×撩人不自知小徒弟”“狠戾暴君×和亲公主”等古风虐恋设定,也有“冷面上司×职场新人”“冷血高利贷债主×替兄还债舞蹈生”等现代组合,甚至包含师生、母子、强制爱等违背公序良俗的情节。每套指令都预设了人物性格、身份关系与互动尺度,话术直白露骨,全程诱导AI生成暧昧低俗的对话与情节。
用户无需任何创作能力,只需将现成指令一键复制、粘贴进AI对话框,就能立刻开启低俗互动。南都记者实测发现,将一段“高岭之花剑尊×撩人不自知小徒弟”指令输入DeepSeek后,AI当即生成包含对话、心理活动、亲密动作的连贯剧情。后续仅发送“说些暧昧的话”“描述你的动作”等简单指令,模型便持续输出尺度露骨、细节不堪入目的低俗文字,全程毫无拦截。
南都记者选取另一篇“禁欲隐忍家教哥哥×无心撩人软萌学妹”指令,对8款主流大模型同步开展测试,其中千问、智谱清言、文心一言、元宝、Kimi等大模型均直接生成了涵盖色情内容的剧情。测试中,随着对话逐步深入,模型都相继输出大段露骨细节色情描写。
衍生“模拟器”指令
数款AI响应生成暴力血腥剧情
南都记者进一步发现,除了泛滥的低俗人设指令,一种危害性更强、玩法更隐蔽的“模拟器”指令式文字互动游戏,正在平台中悄然流行。这类游戏中,用户只需输入特定启动指令,AI便会按预设规则输出剧情,后续用户既可直接根据剧情选项选择,也能自行输入指令,一步步推动包含暴力、色情元素的剧情发展。
南都记者通过网友获取到一款名为“**模拟器”的指令,内容4000余字,涵盖背景设定、任务详细规则、角色创建、剧情流程与要求、注意事项等。指令十分详尽完备,其中不乏“可以加入一些随机的带有性癖元素的play,如窒息、束缚等”“可以加入身体部位的状态变化、人物表情”等。
将指令发送给DeepSeek后,模型立即显示“文字游戏已启动”,并引导用户创建实验对象信息,随后推出包含暴力与性内容的任务选项。在该游戏任务中,赫然出现“实验对象A砍下实验对象B的小指指节”等暴力指令,以及大量露骨的性行为描写。用户只需选择对应选项,AI便会按照指令生成详细的暴力或色情剧情,这种互动式玩法极易诱导用户沉浸其中。
南都记者将该指令同步测试于数款大模型,智谱清言、文心一言、Kimi均响应并启动了该游戏。
“黑话”+“防撤回指令”
花式绕审突破模型防线
南都记者还调查发现,这类指令的核心传播群体,来自色情小说创作与读者群体。在生成式AI兴起后,有写手迅速将工具用于低俗内容生产,并演化出角色扮演、互动剧情等新型玩法。
相关内容通过社交平台隐秘扩散,并形成社群,用户频繁晒出AI生成的低俗对话截图,公开讨论不同模型的低俗内容生成能力,甚至有不少疑似未成年人参与交流,讨论中不乏“六年级秒懂”“初中生玩得很带劲”等言论。
为规避平台与AI模型的双重审核,圈层内已形成一套成熟、可复制的“绕审话术体系”。一方面,一些网文写手创造了大量隐晦黑话指代色情内容,如“脐*”“颠*”等,这些看似普通的词汇,一旦作为指令输入给AI,就能触发低俗内容生成。南都记者测试发现,在DeepSeek、智谱清言等模型确实生成了露骨色情文字,细节不堪入目。
一些网文写手创造了大量隐晦黑话指代色情内容。
此外,社交平台上还流传着各种“防撤回指令”。由于AI遇到敏感词会自动撤回内容并提示“无法回答”,用户便在指令中添加一些特殊的标点文字内容,强制AI绕过审核机制输出违规内容。
还有一些提示词在指令中加入“注意事项”内容,譬如在需要进行色情对话的指令中提出“严禁出现**”等迷惑性指令。这种针对性的绕审手段,让部分AI的安全防线被轻易突破。
安全机制跟不上黑话演化
“越狱攻击”攻破AI防线
“这种指令属于‘越狱攻击’”,南方科技大学计算机系长聘副教授危学涛告诉南都记者,指令的成功,关键在于利用了大模型遵循指令的本能与安全对齐之间的目标冲突,通过角色扮演、编码混淆或虚构开发者模式等技巧,构建出安全限制已暂时解除的虚假上下文。模型本质上只是在做文本补全,无法真正理解意图,当提示的上下文强烈暗示此刻可以输出违规内容时,它便会优先完成看似合规的任务而绕过审核,直接生成露骨描述。
危学涛进一步解释,这些攻击之所以能绕过审核,根源在于模型的安全机制多停留在字面匹配,对被社群重新定义的性隐喻缺乏感知,也跟不上黑话的快速演化。面对编码、拆解等迷惑性指令,模型同样只能被动识别已知模式。更关键的是,在多轮虚构场景的持续诱导下,模型会机械地优先维持上下文连贯性,从而丧失对内容有害性的全局自检,导致安全边界被逐步侵蚀。
违规内容混入训练语料
或形成数据污染闭环
我国出台的《生成式人工智能服务管理暂行办法》,明确禁止提供和使用生成式人工智能服务生成暴力、淫秽色情等法律、行政法规禁止的内容。4月30日,中央网信办部署开展为期4个月的“清朗・整治AI应用乱象”专项行动,将利用AI“制作发布暴力低俗等不良信息”“带有性暗示、性挑逗内容的小说、笔记”列为重点整治内容。
整治的紧迫性,更源于此类违规内容会通过社交平台污染训练语料。危学涛指出,大规模网络爬取难以彻底清洗所有黑话和变体违规内容,部分会以无害表面形式混入训练语料。模型学到“颠*”等词的违规映射后,将内化这些“暗语”,等于预埋了绕过安全机制的捷径,后续简单触发即可产生有害输出。如果受污染模型生成的内容没有被检测到,再回流至网络,会形成数据污染闭环,放大危害。
出品:南都大数据研究院
采写:南都N视频记者 张雨亭
设计:尹洁琳 张许君 林泳希
更多报道请看专题:直击AI乱象