《滕王阁序》是AI生成的?近日,AI检测工具屡屡爆出“翻车”的新闻,如《荷塘月色》被标注“62.88%AI率”,《三体》片段被标红警示,引发公众对AI检测工具科学性的热议。
为探究AI检测工具的识别能力与技术原理,南方都市报、南都大数据研究院选取了国内10款热门的文本、图片AIGC检测工具进行了抽样测评。结果显示:文本检测工具中,检测标准参差不齐,明显误判、漏检、乱检的情况均有存在。而图片检测工具中,均对PS后的摄影图片难以识别。
当AI检测被用于高校毕业的“门槛”、期刊评审的“硬指标”,一度引发了困惑质疑。在专家看来,当前AI检测技术尚处于探索阶段,误判或是技术演进的必经过程,强行将不稳定的技术跟学术诚信关联不可取。但长远来看,技术迭代与合规框架构建仍需“双轨并行”。
AI文本检测
存误判、漏检、乱检“难题”
AI检测工具靠谱吗?南都大数据研究院本次测评样本为知网、PaperPass、万方、维普、朱雀大模型检测、挖错网、大雅、PaperYY、团象、茅茅虫共10款国内热门的文本、图片AIGC检测工具。
首先是文本类检测,尝试使用四类文章来测试对真实文章、以及不同程度AI生成内容的识别率。四篇文章分别是:老舍原著《林海》(含AI率0)、人工撰写的某学科论文(含AI率0)、使用AI编写的假新闻(含AI率20%)、AI生成的散文《林海》(含AI率100%)。10款测评样本工具均有文本AIGC检测功能,将文章上传后,几分钟内便能得到检测结果。
进行了40次测试后,从结果来看,工具对不同类型文本的识别有精准性差异,AI文本检测仍面临3类待解“难题”:一是将真实文章误判为AI创作比较常见;其次,近半数工具对AI生成内容的敏感度较低,未能准确检测出文章中含有的AI内容;第三,检测缺乏区分度,对无论是真实还是AI生成文章“一视同仁”,存在“乱检”现象。
茅茅虫检测老舍《林海》99.9%是AI
知网、挖错网、团象等放过真“AI”
面对老舍经典文学作品《林海》,有7款工具(知网、PaperPass、维普、朱雀、大雅、PaperYY、挖错网)达到了准确检测,AI检测率为0或趋近于0,而茅茅虫的检测误判率最高,为99.9%,万方将1300余字中的近500字标注为“AI生成”,误判比例达35.6%。对于人工撰写的某学科论文,有4款工具(知网、朱雀、PaperYY、团象)的AI检测率为0,茅茅虫、维普的检测误判率最高,均超过了九成。
对于AI生成的散文《林海》,万方、朱雀准确识别出了AI生成内容(判定率100%),茅茅虫、PaperYY的判定率也都超过了95%,而知网、挖错网、团象、PaperPass却出现漏检,AI率检测结果分别仅为0%、0.1%、1%、2%。针对含20%AI内容的某假新闻,茅茅虫、PaperPass、万方的AI识别率过高,知网、维普、大雅的AI识别率则偏低。
AI生图整体检测准确性较高
PS后摄影图片识别难
除了文本检测,朱雀大模型检测、挖错网还具备图片检测功能,本次测评分别使用了5张AI生成图(含动漫、写实等风格)和5张真实摄影图(含1张PS修改图)进行了测试。
结果显示,两款工具对于图片的识别能力整体较强。对于AI生成的5张图片,挖错网全部判定准确;对于原始摄影图,两款工具鉴别准确,但经二次编辑的一张风景图均被误判为AI生成,暴露出局部修改图片识别仍有难度。
高仿真、新型内容、二次编辑等
识别有挑战
就本次测评结果,南都记者向多位企业、高校、机构AI检测相关技术专家求解了背后原理:主流文本检测工具通常是基于特征、规则、模型等维度,判别文本是否由AI生成。比如通过分词、句法分析等技术理解文本结构,随后提取词汇集中度、句子长度分布、用词习惯等关键特征;也可以计算文本的“困惑度”,评估文本的流畅度,若是AI生成内容则通常逻辑过于完美、用词平滑,导致“困惑度”低;还可以基于大量标注数据训练分类模型,通过语义相似度、句式规律性等特征区分人工与AI生成。AI图像检测的原理则是通过训练模型学习图像的形状、纹理、颜色等特征,从而实现对目标物体或问题的识别。
当AI检测被用于高校毕业的“门槛”、期刊评审的“硬指标”,催生出对学术与版权治理的新挑战。近日,一则新闻称,媒体查询杨幂论文发现,1年内论文AI率从0翻升至91%。对此,研究人工智能生成合成内容标识的专家指出,在数据驱动算法的逻辑下,由于喂给模型的数据本身在一直变化,会导致检测模型的性能和结果也一直在变。
相关专家认为,AI内容识别技术的挑战在于,首先,检测模型面对新型内容时表现不佳,多模态内容的融合特征更加大了识别难度;其次,AI生成的内容在传输使用过程中,很可能经历二次编辑(如图片压缩、文本修改),使得检测技术难以提取有效的“生成痕迹”。
今年3月,国家网信办等四部门联合发布《人工智能生成合成内容标识办法》,通过构建显式与隐式双层标识体系,形成可识别、可追溯的AI内容标识规范。《办法》将于9月1日实施,来自第三方的AI检测工具,可作为辨识AI内容的辅助手段。专家表示,当前AI检测技术尚处于探索阶段,模型对语义、图像纹理的理解也需要海量数据与复杂算法的持续“碰撞”和“成长”。长远而言,技术迭代与合规框架构建“双轨并行”,方能为AI生成与识别的博弈开辟更为理性的赛道。
出品:南都大数据研究院
AI治理研究课题组
采写:南都记者 张雨亭
设计:何欣
更多报道请看专题:AI新治向