快手类Sora大模型公测“抢号”激烈,图生视频功能将上线

南方都市报APP • AI前哨站
原创2024-06-12 22:30

南都记者从快手获悉,快手对标Sora的视频生成大模型“可灵”自6月6日开放邀请测试后,截至6月12日已有超过6万人排队申请测试,平均每天万人争抢测试账号。“可灵”大模型目前仅开放“文生视频”功能,“图生视频”功能将于近期推出。

今年2月中旬,OpenAI的文生视频大模型Sora横空出世,采用“Diffusion+Transformer”(DiT)架构,可以生成长达1分钟的流畅视频,但迄今未正式发布也未开放公测,仅向一些艺术家定向提供了使用权限。6月15日,五部使用Sora创作的短片作品将亮相美国的翠贝卡电影节。OpenAI CTO米拉·穆拉蒂(Mira Murati)3月中旬曾透露,计划“今年晚些时候”正式推出Sora。

据快手介绍,作为Sora的国内“平替”,“可灵”大模型由快手AI团队自研,采用类Sora的技术路线并结合多项自研技术,能生成高达2分钟的视频,生成视频分辨率可达1080P,且支持自由的宽高比视频输出。快手称,训练时长的实现,“得益于高效的训练基础设施、极致的推理优化和可扩展的基础架构”。

官方展示的一段“一名宇航员在月球表面奔跑”的视频示例显示,随着镜头慢慢抬升,宇航员跑步的动作较为流畅轻盈,步态和影子的运动也符合常识。另一则“小男孩吃汉堡”的视频中,男孩咬下汉堡后留下缺口,汉堡的这一缺口在视频中持续保持。快手意在借此表明“可灵”大模型能够像Sora那样,模拟真实物理世界的特性。

图片

“小男孩吃汉堡”的视频截图

“大模型的生成效果取决于数据的规模和质量,以及大规模训练的效率。”快手方面表示,“可灵”大模型在研发过程中,配套建设了高效的大规模自动化数据解决方案,覆盖了海量视频挖掘、多维打标筛选、视频描述增强及数据驱动的效果质量评估等多个方面。

自Sora引爆视频生成大模型赛道以来,国内许多创业公司纷纷加入战局。

3月11日,完成亿元A1轮融资的爱诗科技上线“爱诗视频大模型”(海外版为PixVerse),并宣称“在3-6个月内赶超Sora目前水平”。3月12日,另一家视频生成大模型初创公司生数科技也宣布完成数亿元融资。4月末,生数科技发布视频生成模型Vidu,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。生数科技还于6月初宣布完成数亿元Pre-A轮融资,由北京市人工智能产业投资基金、百度联合领投。

从各家表现比较来看,快手“可灵”是国内首个面向用户开放邀测的Sora级文生视频大模型。

同样拥有海量短视频训练数据资源的抖音,则一直没有推出对标Sora的视频生成大模型,仅在5月上线具有AI视频生成功能的“即梦Dreamina”产品,提供文生视频和图生视频两种创作方式,生成的视频时长限制在3-6秒。

券商申万宏源近期在一份研报中分析,快手发布可灵大模型,是国内AI视频生成技术的重大突破,抖音的即梦 AI、爱诗科技的PixVerse与 Sora仍有差距,“可灵”文生视频效果已可对标,有助于提振对国内AI产业的信心。

 

采写:南都见习记者 杨柳

编辑:李玲

对这篇文章有想法?跟我聊聊吧
南都新闻,未经授权不得转载。授权联系方式:
banquan@nandu.cc,020-87006626。