北大深圳研究生院联合兔展智能“复现”国版Sora

南都N视频APP · 深圳大件事

原创2024-03-13 14:20

南都讯 记者谢萌作为AI大模型领头羊公司的OpenAI在今年春节前后发布了视频生成大模型Sora，引发广泛关注和讨论。近期，北京大学深圳研究生院-兔展智能AIGC联合实验室推出Open-Sora计划，旨在复现开源版的Sora，希望通过开源的方式，带动全球范围感兴趣的技术人员参与进来。

Open-Sora计划已于近期在GitHub上公开，其核心技术框架包括视频编解码模块、Diffusion Transformer模型和条件输入三大模块。在资源有限的情况下，该项目采用了计算更友好的2D + 1D Diffusion Transformer，同步还在推进除了文本控制外的更多条件控制的视频生成训练。

在3月12日的说明会上，兔展智能创始人董少灵介绍，目前Open-Sora计划基于已经搭好的训练框架，能够支持动态输入、多尺度、多分辨率的训练，对于可变比例、可变时长的视频已经取得了较好的生成效果，初步完成了第一阶段验证的任务。第二阶段将在有效框架基础上使用更多数据和更大算力，训练出20秒以上、720P清晰度的视频生成模型，实现该开源项目的目标；第三阶段作为延展目标，如果得到更多支持的情况下，会考虑进一步延伸拓展生成的泛化性，场景多样性等。

项目在GitHub上发布后，也有不少人工智能大V们转发关注，发布一周内Star超过5K （5000多名技术开发人员标星），登上GitHub Trend第一。“让AI普惠人类，需要有第二种选择，”董少灵表示，“OpenAI选择了闭源不再‘open’，我们发起这项计划，想把类似的技术开源给整个社群来使用，希望更多人参与到计划中来，项目也不是为了做娱乐视频，更是想打造成深植于产业、赋能产业发展的中国本土的视觉大模型。”

2023年，兔展智能联合北京大学深圳研究生院共同成立了AIGC联合实验室，旨在共同探索产学研协同创新发展的新路径，打造“TOP + TOP”科研与产业深度共赢的科创新范式。该项目的联合发起人、北京大学深圳研究生院信息工程学院助理教授、博士生导师袁粒则表示，“开源社区的信仰就是技术开放共享，希望通过开源的方式集合大家力量共同推动这件事。”

编辑：谢萌

南都N视频，未经授权不得转载、授权联系方式
banquan@nandu.cc. 020-87006626

本文作者

谢萌

南方都市报记者