北大深圳研究生院联合兔展智能“复现”国版Sora

南方都市报APP • 深圳大件事
原创2024-03-13 14:20

南都讯 记者谢萌 作为AI大模型领头羊公司的OpenAI在今年春节前后发布了视频生成大模型Sora,引发广泛关注和讨论。近期,北京大学深圳研究生院-兔展智能AIGC联合实验室推出Open-Sora计划,旨在复现开源版的Sora,希望通过开源的方式,带动全球范围感兴趣的技术人员参与进来。

Open-Sora计划已于近期在GitHub上公开,其核心技术框架包括视频编解码模块、Diffusion Transformer模型和条件输入三大模块。在资源有限的情况下,该项目采用了计算更友好的2D + 1D Diffusion Transformer,同步还在推进除了文本控制外的更多条件控制的视频生成训练。

在3月12日的说明会上,兔展智能创始人董少灵介绍,目前Open-Sora计划基于已经搭好的训练框架,能够支持动态输入、多尺度、多分辨率的训练,对于可变比例、可变时长的视频已经取得了较好的生成效果,初步完成了第一阶段验证的任务。第二阶段将在有效框架基础上使用更多数据和更大算力,训练出20秒以上、720P清晰度的视频生成模型,实现该开源项目的目标;第三阶段作为延展目标,如果得到更多支持的情况下,会考虑进一步延伸拓展生成的泛化性,场景多样性等。

项目在GitHub上发布后,也有不少人工智能大V们转发关注,发布一周内Star超过5K (5000多名技术开发人员标星),登上GitHub Trend第一。“让AI普惠人类,需要有第二种选择,”董少灵表示,“OpenAI选择了闭源不再‘open’,我们发起这项计划,想把类似的技术开源给整个社群来使用,希望更多人参与到计划中来,项目也不是为了做娱乐视频,更是想打造成深植于产业、赋能产业发展的中国本土的视觉大模型。”

2023年,兔展智能联合北京大学深圳研究生院共同成立了AIGC联合实验室,旨在共同探索产学研协同创新发展的新路径,打造“TOP + TOP”科研与产业深度共赢的科创新范式。该项目的联合发起人、北京大学深圳研究生院信息工程学院助理教授、博士生导师袁粒则表示,“开源社区的信仰就是技术开放共享,希望通过开源的方式集合大家力量共同推动这件事。”

编辑:谢萌

1
对这篇文章有想法?跟我聊聊吧
谢萌8653W
南方都市报记者
南都新闻,未经授权不得转载。授权联系方式:
banquan@nandu.cc,020-87006626。