国家数据局:我国7个数据标注基地已形成524个数据集

南都N视频APP · 隐私护卫队课题组
原创2025-07-22 13:38

南都讯 记者樊文扬 7月22日,2025年中国国际大数据产业博览会新闻发布会在北京举行。国家数据局副局长余英在会上表示,此前国家数据局指导合肥、成都等7个城市建设数据标注基地,先行先试探索数据标注产业发展经验。截至今年上半年,7个数据标注基地已形成数据集524个,规模超过29PB,服务大模型163个。

人工智能时代,数据的价值或被重新定义。有观点认为,算力决定人工智能的下限,数据决定人工智能的上限。为了加强高质量数据集建设和数据标注产业培育,此前国家数据局开展了大量工作。

余英在会上表示,首先,国家数据局联合各部门、各地区创新工作模式,构建“部门协同、央地联动”的工作机制,联合施策、协同发力,全面加速高质量数据集建设和应用落地,进一步推动数据要素市场化、价值化,为培育新质生产力提供坚实的数据支撑。

其次,国家数据局组织开展生态培育专项行动,主要包括三个方面内容。一是组织开展高质量数据集典型案例征集和示范推广,挖掘医疗、工业、交通等重点领域标杆实践;二是定期举办技术交流活动,围绕数据标注、合成、高质量数据集建设方法论等开展深度研讨;三是搭建常态化供需对接平台,促进数据供给方、技术提供方、场景应用方精准匹配。

同时,国家数据局还指导合肥、成都等7个城市建设数据标注基地,先行先试探索数据标注产业发展经验。截至今年上半年,7个数据标注基地已形成524个数据集,规模超过29PB,建成163个服务大模型。

此外,余英还提到,国家数据局指导全国数据标准化技术委员会秘书处发布《高质量数据 建设指南》《高质量数据集 格式要求》《高质量数据集 分类指南》《高质量数据集 质量评测规范》等一系列技术文件和标准草案,并且组织开展试点验证,未来还将推动这些标准转化为国家标准。

今年4月底,国家数据局发布的《全国数据资源调查报告(2024年)》显示,我国数据资源规模持续扩大,开发利用活动日益活跃,数据要素市场化价值化进一步提速。

余英表示,为了培育壮大数据产业,接下来,国家数据局将多措并举,进一步优化产业规划布局,推动数据产业从“单点突破”向“全域发展”转变。

具体而言,下半年,国家数据局计划布局建设一批数据产业集聚区试点,支持和引导有条件的地区,立足资源禀赋和产业基础,打造协同互补、特色鲜明、优势突出、具有较强竞争力和示范带动性的数据产业集聚区,发挥产业区域聚集和规模效应,探索多元化数据产业培育发展路径。

同时,余英还提到,国家数据局也正在组织相关研究力量,开展全国数据产业规模测算工作,为政策供给和产业发展提供决策参考,相关研究成果计划将在数博会期间以适当的形式发布。

编辑:黄莉玲

南都N视频,未经授权不得转载、授权联系方式
banquan@nandu.cc. 020-87006626