快手类Sora大模型公测“抢号”激烈，图生视频功能将上线

南都N视频APP · AI前哨站

原创2024-06-12 22:30

南都记者从快手获悉，快手对标Sora的视频生成大模型“可灵”自6月6日开放邀请测试后，截至6月12日已有超过6万人排队申请测试，平均每天万人争抢测试账号。“可灵”大模型目前仅开放“文生视频”功能，“图生视频”功能将于近期推出。

今年2月中旬，OpenAI的文生视频大模型Sora横空出世，采用“Diffusion+Transformer”（DiT）架构，可以生成长达1分钟的流畅视频，但迄今未正式发布也未开放公测，仅向一些艺术家定向提供了使用权限。6月15日，五部使用Sora创作的短片作品将亮相美国的翠贝卡电影节。OpenAI CTO米拉·穆拉蒂（Mira Murati）3月中旬曾透露，计划“今年晚些时候”正式推出Sora。

据快手介绍，作为Sora的国内“平替”，“可灵”大模型由快手AI团队自研，采用类Sora的技术路线并结合多项自研技术，能生成高达2分钟的视频，生成视频分辨率可达1080P，且支持自由的宽高比视频输出。快手称，训练时长的实现，“得益于高效的训练基础设施、极致的推理优化和可扩展的基础架构”。

官方展示的一段“一名宇航员在月球表面奔跑”的视频示例显示，随着镜头慢慢抬升，宇航员跑步的动作较为流畅轻盈，步态和影子的运动也符合常识。另一则“小男孩吃汉堡”的视频中，男孩咬下汉堡后留下缺口，汉堡的这一缺口在视频中持续保持。快手意在借此表明“可灵”大模型能够像Sora那样，模拟真实物理世界的特性。

“小男孩吃汉堡”的视频截图

“大模型的生成效果取决于数据的规模和质量，以及大规模训练的效率。”快手方面表示，“可灵”大模型在研发过程中，配套建设了高效的大规模自动化数据解决方案，覆盖了海量视频挖掘、多维打标筛选、视频描述增强及数据驱动的效果质量评估等多个方面。

自Sora引爆视频生成大模型赛道以来，国内许多创业公司纷纷加入战局。

3月11日，完成亿元A1轮融资的爱诗科技上线“爱诗视频大模型”（海外版为PixVerse），并宣称“在3-6个月内赶超Sora目前水平”。3月12日，另一家视频生成大模型初创公司生数科技也宣布完成数亿元融资。4月末，生数科技发布视频生成模型Vidu，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。生数科技还于6月初宣布完成数亿元Pre-A轮融资，由北京市人工智能产业投资基金、百度联合领投。

从各家表现比较来看，快手“可灵”是国内首个面向用户开放邀测的Sora级文生视频大模型。

同样拥有海量短视频训练数据资源的抖音，则一直没有推出对标Sora的视频生成大模型，仅在5月上线具有AI视频生成功能的“即梦Dreamina”产品，提供文生视频和图生视频两种创作方式，生成的视频时长限制在3-6秒。

券商申万宏源近期在一份研报中分析，快手发布可灵大模型，是国内AI视频生成技术的重大突破，抖音的即梦 AI、爱诗科技的PixVerse与 Sora仍有差距，“可灵”文生视频效果已可对标，有助于提振对国内AI产业的信心。

采写：南都见习记者杨柳

编辑：李玲

南都N视频，未经授权不得转载、授权联系方式
banquan@nandu.cc. 020-87006626

本文作者

OpenAI放弃Sora，字节视频生成模型上线部分国家
政商数据 1万读
视频生成模型Sora太烧钱，Open AI“断臂”谋上市
政商数据
视频｜世维仓储：保税物流中心将精准服务不同类型企业
南方视频 9304读
手术视频大模型“术影”开源发布，助力术者从看画面到懂操作
健闻