12月19日下午,由南方都市报、南都数字经济治理研究中心、中国政法大学数据法治研究院联合主办的“第七届啄木鸟数据治理论坛”在北京举行,主题为“数据为本,AI向善”。会上,南都数字经济治理研究中心发布了《生成式AI发展与治理观察报告(2023)》。
为了解国内生成式AI发展现状及痛点,南都数字经济治理研究中心与12位生成式AI从业者进行了访谈。其中包括AI公司创始人,也包括头部互联网公司AI算法或数据合规的资深专家,还有如知乎、博特智能等推出大模型的企业,也通过书面回复等方式参与了此次调研。
部分企业相关负责人提到,大模型发展面临芯片短缺、数据约束、人才缺口等制约因素。在合规方面,也呼吁相关的监管规则和指引进一步清晰。
算力紧缺、数据孤岛……大模型落地的挑战是什么?
公开信息显示,截至目前,国内至少有23家大模型通过备案,面向社会公众开放。在这些大模型走向落地的路上,业界主要面临哪些发展痛点?
有企业表示,横亘在国内生成式AI发展道路上的一道阻碍是算力紧缺,而这一匮乏与芯片被“卡脖子”不无关系。由于供应链被切断,芯片断货,而国内高端芯片存在“卡脖子”问题,虽然有一部分厂商做了技术突破,但从专业上依旧达不到高端芯片水平。
如果说芯片是维持生成式AI运转的硬件,那么数据就是其“燃料”。训练数据数量及质量,决定了大模型自身能力的上限。但目前国内优质、高质量的中文训练数据相对匮乏。 为此不少企业呼吁,应将包括公共数据、行业数据在内的数据打通共享,打破数据孤岛,以相对合理的成本、相对合适的方式授权给大模型企业使用,以获得更高丰富度、高质量的数据供给,推动数据的流通和使用,提升大模型本身的能力。
此外人才短缺、商业落地难,也是生成式AI行业发展的痛点。特别是,在压力下开发出大模型后,技术应用和商业化能带来多大的实际利润,目前仍待观望。
有受访企业CEO直言,当前AI创造的价值与AI 公司实际获得的价值之间存在巨大的鸿沟。在现有的商业模式下,生成式AI所创造的价值并没有得到相应的回报。
除了研发成本,大模型到了落地应用阶段,用户的每一次交互行为也会产生运算成本。在没有找到可持续的良性循环的商业模式之前,或许就有一部分大模型企业因不堪成本压力而折戟沉沙。
合规是必由之路,困惑与难点何在?
技术的发展,总是伴随着安全隐忧。
此前,关于AI生成虚假信息、造成隐私风险等问题已经颇受关注,并已有相关的案例出现。尽管有些是“老”问题,但由于生成式AI的技术机制和业务模式发生了变化,具体到风险产生的原因、涉及主体方及其应当承担的法律责任,也不尽相同,因此有必要结合具体场景作进一步讨论。
在访谈中,有专家表示应当重视可能发生的系统性风险。未来可能形成AI供应生态,即在一家大模型的基础上又包装开发出一系列新的模型,如何确保整个AI系统的安全性,值得关注。
还有资深算法专家强调,一旦大模型广泛且深入地应用到了千行百业,并与相关媒介做了适度的结合,拥有调用工具的功能甚至被赋予了决策的权利。在这种情况下,一旦大模型出现安全事故,有可能波及其他系统,将风险扩散至更大范围。
基于生成式AI潜在的风险,包括中国在内的主要国家和地区纷纷开启相关的治理探索。今年7月,七部门联合发布《生成式人工智能服务管理暂行办法》,在鼓励生成式AI创新应用的同时,也强化风险治理,突出分级分类监管,并明确向监管部门备案和申报安全评估的要求。
具体到实践,部分企业反馈存在一定的合规困惑。比如怎么精准区分算法推荐、深度合成、生成式AI等概念。这些技术概念存在一定重合和交叉,可能导致适用规则不清晰的问题。
与此同时,关于备案和安全评估也是业界关注的重点,建议出台更为清晰的细则和指引。还有率先获批上线的大模型企业代表提出,后续对大模型进行二次开发和应用,或者新增了部分功能,是否需要重新进行备案,企业仍在观望。
“算法黑箱”的存在使得生成式AI的输出结果充满了难以预期,如何确保内容的安全性,也是各家合规的重点方向。
出品:南都数字经济治理研究中心
统筹:南都记者 程姝雯 李玲
采写:南都记者 李玲 胡耕硕 吕虹 杨博雯
编辑:黄莉玲,李玲
更多报道请看专题:深融合新联结高智量!2023年南都智库产品发布周
2023啄木鸟数据治理论坛