“当前全球人工智能正加速从感知智能向认知智能跃迁,大模型作为核心载体,其能力边界几乎完全由数据的质量、规模和安全性决定。数据不仅是模型训练的基础,更直接影响知识结构、表达能力和文化传承,高质量数据集建设是人工智能发展的基础工程和战略任务。”吴世忠说道。
8月28日,在2025中国国际大数据产业博览会“高质量数据集”主题交流活动上,中国工程院院士吴世忠围绕大模型数据集建设分享了一些思考。
吴世忠表示,大模型的逻辑推理、复杂指令遵循以及各种智能涌现,都依赖于海量、多样和高质量的训练数据。五年前GPT-3推出时使用的是数千亿级的文本数据,如今国内外头部模型的训练数据已经迈入万亿级门槛。数据集不仅是模型的训练素材,更是真实世界的模拟环境,数据的广度决定模型的认知、知识边界,标注质量影响模型水平。
“可以说,没有优质的数据集,再先进的算法也难以突破智能边界,再强大的算力底座也可能出现无米之炊,更难以支撑人工智能迈向通用智能的终极目标。”吴世忠说道。
从政策层面看,数据集建设已经明确纳入我国人工智能发展的战略规划和顶层设计。国务院印发的《关于深入实施“人工智能+”行动的意见》也将“持续加强人工智能高质量数据集建设”列为紧要任务之一。本次数博会上,国家数据局启动了高质量数据集领航、行业质量数据集先行先试的专项工作。此前发布的《深圳市人工智能服务管理办法》强调推动公共数据分类分级有序开放,拓展高质量的公共训练数据资源。
吴世忠指出,尽管数据集建设意义重大,但在实践中仍面临多方面挑战。首先是数据来源的合法性风险。大模型数据主要来自网络公共数据集和用户生成内容,但存在权属不清、未经授权的问题。
例如,训练数据中可能包含未经许可的小说章节或企业内部文档,即便开发者遵循了合理使用原则,仍会面临版权诉讼。有的社交媒体数据未经用户同意便被使用,违反《数据安全法》。国外曾有大模型因非法收集用户搜索历史,被监管部门认定违法并罚款数亿元。
“合法性监管不是形式主义,而是数据集建设的第一道防线,不能失守。”吴世忠强调。
其次是数据内容的可靠性风险。大模型的输出质量直接取决于训练数据,但现实中数据集常有三类问题,包括低质噪声,如广告、乱码、虚假新闻;失实错误,如历史与科学表述不符;以及涉及地域、民族、宗教歧视、价值观偏差等,这些问题会直接影响模型输出的准确性与公正性。
数据供应链风险亦不容忽视,应高度关注篡改隐患。数据集从采集、标注到使用涉及多环节,供应商、外包标注团队和云平台等一旦出现漏洞,就可能成为攻击入口。
测试中发现,通过公共数据集中注入少量精心设计的样本,就可以诱导大模型输出错误的信息。更有甚者,部分不良供应商在标注时故意插入错误,导致模型在医疗、化工等严谨高风险场景中做出错误的决策。
吴世忠还提到,随着数据集流动的增加,包括使用海外开源数据集,还面临主权方面的风险。
此外,还有伦理风险。即便数据本身合法合规,若缺乏使用场景约束,也可能导致深度伪造、诈骗操纵等问题。例如涉及生物特征的人脸照片、影音片段,被大模型利用后可能引发技术滥用,甚至伤害未成年人和弱势群体。不仅如此,当数据集被多个模型共享时,如果滥用行为没有及时阻断,风险还会在模型之间扩散。
为应对上述挑战,吴世忠认为应从以下四方面发力。首先是完善分级分类的数据安全制度,明确可用范围和使用规则,并建立推荐数据目录与跨境数据安全评估机制。其次,强化全流程技术防护,通过区块链存证、敏感信息检测、人机协作标注与“数据沙箱”等手段提升防篡改与质量控制能力。
第三,推动政府、企业、科研机构多方协同,建立备案审查、公共数据开放、合规岗位设置和安全认证制度。此外,培育安全向善的行业生态,将技术安全与价值引领结合,倡导数据伦理规范和社会责任,推动形成全社会共同守护的数据安全文化。
采写:南都N视频记者 黄莉玲 李玲 发自贵阳
编辑:李玲
更多报道请看专题:2025数博会专题报道