3月31日,记者从教育部发布会上获悉,近日该部协同国家语委等三部门共同印发了《关于加强数字中文建设 推进语言文字信息化发展的意见》(以下简称《意见》)。根据《意见》,我国将实施数字中文服务教育发展行动,助力打造中国版人工智能教育大模型;到2027年,要基本建成国家语言文字大数据中心。
创新中文信息处理技术应用
以数字化构建新型中文服务体系
人工智能技术快速发展,中国如何加强数字中文建设,从而推动中文信息处理技术创新发展?
发布会上,教育部语言文字信息管理司司长刘培俊介绍,《意见》明确提出,将数字中文建设作为服务数字中国建设的重要任务和全面推进语言文字信息化发展的突出重点,全方位释放语言文字在经济社会发展中的数据要素价值。在实践中,既要规范、有效、批量地将中文资源信息转化为智能数据,也要促进中文数据的规模生产、优质集成、规范治理和复用增效,实现以数字化手段构建新型中文服务体系,引领带动语言文字信息化全面发展。
为何强调数字中文?刘培俊表示,中文使命重大,数字中国建设,加大国家通用语言文字推广力度、深化中华优秀语言文化传承、增进语言文明国际交流互鉴等多项重大任务都更加需要中文数字化赋能。
中文文化内涵丰富,是中国贡献给世界的重要公共文化产品,更加需要中文数字化传播。中文使用范围广泛,更加需要中文数字化学习。而且,中文数据价值突出,大规模、高质量的中文数据有利于推动中国特色大语言模型创新发展,更加需要中文数字化支撑。
刘培俊表示,在数据资源建设上,发挥语言文字服务国家语言能力建设的战略作用,实施国家关键语料库建设计划,建设大规模中文语料库等。在关键领域赋能上,发挥信息技术赋能国家语言服务体系构建的全局优势,研制大语言模型能力素养框架(师生版),推进甲骨文数字化共享,实施中华文化优秀课程多语种数字化传播计划等。
北京大学王选计算机研究所所长汤帜表示,要加强数字中文建设,推动中文信息处理技术发展进入新阶段。“新形势下,语言文字将实现从‘静态符号’向‘动态数字资产’,从‘信息载体’向‘生产要素’的转型,要重点支持文本生成与理解、语言翻译、情感分析等各种任务。”
汤帜同时指出,语言文字还要从基础支撑提高到赋能全局发展,要实现语言文字与信息技术的深度融合,就要形成“技术突破—场景落地—生态繁荣”的良性循环。
AI赋能古籍数字化 成果亮眼
文脉重赓续 芸帙焕新颜
事实上,在数字中国建设落地推进过程中,近年来已涌现出多种创新赋能的中文信息处理技术应用实践和生态场景。
昨天刚刚闭幕的2025中关村论坛上,南都记者在科技探馆中就身临其境地体验了一场宋代织布作坊的劳作场景。通过裸眼3D建模和AI交互技术,参展企业中科数字将《本草纲目》《天工开物》等古籍转化为生动的数字资源。以《天工开物》中《乃服篇》的数字还原场景为例,南都记者无需佩戴任何VR/AR类辅助设备,仅通过pad操作,裸眼3D打造的宋代纺织机模型旋即跃然眼前,纺纱女工们娴熟的手艺流程逐一呈现,环绕立体的作坊人声真切可感,令记者沉浸式体验了一把北宋年间天工开物的古代智慧。
据《天工开物》“乃服篇”还原的宋代织布作坊蚕桑工艺裸眼3D效果图
“我们这项技术以专业史实为制作标准,完成了织布花机的三维立体还原,还原了1800根经线的纺织。”中关村论坛展台现场,中科数字商务总监封旭阳向南都记者介绍,目前该项技术已覆盖了包括首都图书馆在内多家文化公共机构的数字基建体系,“我们希望能以AI技术赋能古籍数字化、具象化,为非遗传承提供新路径,助力珍贵的古籍赓续文脉、重获新生。”
埋首晴虹下,芸帙焕新颜。
南都记者观察到,当前以AI交互为代表的数字技术,正让中文古籍在文物价值外呈现越来越多古文本身的学术、文化价值。以封旭阳提到的首都图书馆珍藏的古籍为例。记者获悉,今年初,首图古籍数字资源发布平台就已正式上线,读者可以通过数据库,从“版本”“版式”“装帧”等了解古籍,在“珍品赏析”中看到同一个汉字在不同古籍中的书写风格。在“古今对读”中,在线实时将古籍转换成简体字、横版阅读,自动给文章断句。
其中特别惊艳的一个版块是古籍专题库中的“微剧场”,由首都图书馆联合阿里巴巴通义实验室,利用通义万相视觉生成大模型,以明万历刻朱氏玉海堂印本《牡丹亭》第十出“惊梦”为蓝本,通过AIGC技术生成“游园惊梦”的短片,为首图读者提供最接近原本的梦幻视觉呈现。首都图书馆也是近日文化和旅游部公布的第二批国家级古籍修复中心之一。
创新实践风起云涌,政策指引更须前瞻助力。
31日的发布会上,北京师范大学党委常委、副校长康震就提到,为积极应对以大语言模型为代表的人工智能技术对教育变革带来的新机遇、新挑战,北京师范大学将发挥古籍整理智能化关键技术优势,针对古汉语信息处理任务“低资源”“富知识”的特点,以解决领域知识学习需求为核心任务,使用1.8B(18亿)参数量,训练出理解力强、准确率高、应用场景丰富的“AI太炎”古汉语大语言模型。
刘培俊亦表示,未来在技术创新应用上,要发挥自然语言处理技术支撑人工智能发展的基础作用,加快领域大语言模型应用试点,确保规范安全,示范应用;研制面向人工智能的语言资源建设、管理、应用标准,特别是语料和数据质量评价标准等。
采写: 南都记者吕虹 发自北京
编辑:程姝雯
更多报道请看专题:直击2025中关村论坛年会