近日,创新工场董事长兼CEO李开复创办的AI 2.0公司零一万物陷入抄袭争议,被指“‘Yi’大模型使用了LLaMA的架构,只对两个张量进行重命名”。对此,该公司致歉称,“我们正在各开源平台重新提交模型及代码并补充LLaMA协议副本的流程中。”11月17日,零一万物相关负责人向南都记者表示,“公司不存在抄袭问题。”
零一万物对 Yi-34B 训练过程的说明。
此次风波与零一万物近期发布“Yi”大模型有关。11月初,零一万物发布“Yi”系列模型,包含Yi-34B、Yi-6B两个版本,引起业内关注。然而,有国外研究者在开源社区Hugging Face上评论称,零一万物的“Yi”大模型完全使用了LLaMA的架构,只对两个张量进行了重命名。
此事引起关注后,零一万物陷入“抄袭”争议。对此,该公司发布了模型训练过程的说明进行具体回应。11月17日,零一万物相关负责人告诉南都记者,“公司并不存在抄袭等问题。”
零一万物的说明中解释称,大模型社区在技术架构方面现在是一个处于接近往通用化逐步收拢的阶段,基本上国际主流大模型都是基于Transformer的架构,做attention,activation,normalization,positional embedding等部分的改动,LLaMA、Chinchilla、Gopher等模型的架构和GPT架构大同小异,全球开源社区基于主流架构的模型变化非常之多,生态呈现欣欣向荣,国内已发布的开源模型也绝大多数采用渐成行业标准的GPT/LLaMA的架构。
“零一万物在训练模型过程中,沿用了GPT/LLaMA的基本架构,由于LLaMA社区的开源贡献,让零一万物可以快速起步。”说明还表示,零一万物从零开始训练了 Yi-34B 和 Yi-6B 模型。
而对于重命名张量一事,零一万物致歉称,“我们正在各开源平台重新提交模型及代码并补充LLaMA 协议副本的流程中,承诺尽速完成各开源社区的版本更新。”
对此,亚太人工智能学会产业发展委员会秘书长邱维明告诉南都记者,目前,国内许多已发布的大模型是基于LLaMA或LLaMA2等模型架构,进行数据训练的,“训练过程中的训练数据量级,数据品质,训练过程的超参数、训练优化策略,过程方法等对模型有比较大的影响”。他表示,对于公司来说,基于来源LLaMA2进行模型研发,更省时省力,要遵守Meta相关开源协议细则。
采写:南都记者 敖银雪
编辑:张亚莉,韦娟明
更多报道请看专题:新消费研究