Sora“期货”迟迟未兑现，国产视频生成模型已布局商业化

南方都市报APP • AI前哨站

原创2024-09-12 17:13

当用户上传一幅马斯克的照片，视频生成模型随即锁定照片中的主体人物。任意变更提示词切换视频场景，马斯克的人物形象始终保持所上传图片中的样貌而不走样。

左一为上传的马斯克图片，其余两张为视频模型生成的马斯克AI视频

这是大模型公司生数科技于9月11日为旗下Vidu视频生成模型新增的一项功能——“主体参照”（Subject Consistency），可锁定图片上的人物、动物、商品等各类主体。该公司称，该功能能提升主体形象在各类画面场景下的一致性，让视频生成更加稳定可控。

自今年年初OpenAI发布Sora以来，中国国内涌现出诸多视频生成模型的公司和产品。大厂中有快手的“可灵AI”，头部初创公司则包括生数科技、爱诗科技，分别上线了Vidu和PixVerse两款产品。

相比于Sora一鸣惊人后却迟迟未上线而被戏称“期货”，国内一些视频生成模型公司在商业化上“后发先至”。生数科技CEO唐家渝向南都等媒体介绍，Vidu官网面向C端用户收取订阅费，同时为B端企业提供模型API接口调用服务。他没有透露C端付费用户规模，但主要来自国外用户；产品上线一个多月内，已收到B端数万个API接入申请。

视频创作“端到端”，摒除AI绘图步骤

视频生成模型已逐步向影视创作行业渗透，国内外均有AI短片在电影节上映。

北京电影学院博士“尾鳍Vicky”是一名AI影片创作者，据她介绍，通常一部AI影片制作流程分为四步：先用ChatGPT等语言模型生成脚本，再使用Midjourney等生成图片，接着使用Vidu等工具将一张张AI绘图转化为视频，最后借助AI工具修复画面、提高分辨率，用Suno创作AI配乐，并完成人工剪辑。

AI视频创作离不开AI文生图这道中间步骤，归咎于视频模型存在不可控的局限性。唐家渝解释说，视频模型的连续性弱，无法保证每次生成视频时主体、场景、风格等的一致性，尤其涉及复杂交互的情况下尤为明显。另外，视频模型输出结果具有较大随机性，需要不断生成尝试，对于运镜、光效等细节还无法实现精细准确的控制。

阿里巴巴达摩院视频生成负责人陈威华曾在2024世界人工智能大会一场论坛上提到一个AI影片案例：加拿大多媒体制作公司Shy Kids借助Sora制作了视频短片《Air Head（气球人）》，但生成的短片由多个视频片段组成，在生成不同视频片段时很难保证主角始终是长着黄色气球脑袋的人，有时候脑袋上面会出现一张脸，有时候甚至气球不是黄色的。“整个短片并不是Sora直接输出的结果，其中引入了大量的人工后期编辑，因此视频画面的控制是创作中最大的需求”。

为了保证画面的主体一致，AI视频创作之前，不得不先使用Midjourney等生成分镜头画面，然后把合格的图片生成为视频片段进行剪辑拼接。

但由此又带来图片生成的繁重工作量。“尾鳍Vicky”说，可能需要生成50张图片，才能得到一张符合叙事创作要求的图片。

生数科技新上线的“主体一致”功能，则试图砍掉AI文生图步骤，让视频模型直接依据上传的角色设计图和场景描述指令，“端到端”生成对应视频。

AI视频创作者石宇翔提前试用这项功能后发现，该功能可以减少约7成左右的图片生成工作量，从而能将更多精力放在故事内容的打磨，而非生成图片素材。直接由“剧本+主体图”生成视频，视频的连贯性也有了提升。

石宇翔创作的AI动画短片《夏日的礼物》截图

但唐家渝表示，Vidu的“主体一致”功能虽然能锁定角色图中各类主体，但目前对精雕细琢的工艺品等复杂结构对象的成功率不高。如果生成场景包含复杂的组成元素，视频生成模型的能力也有限。唐家渝说，希望用更大的参数量和算法技巧改进来应对模型的这些问题。

视频生成模型商业化聚焦B端

成立于2023年3月的生数科技，今年以来已完成两轮数亿人民币的融资，历次融资吸引了启明创投、蚂蚁集团、BV百度风投、智谱AI等投资机构和产业资本。

受明星投资机构青睐，与生数科技较早就采用与Sora同源的技术路线有一定关系。2022年9月，生数科技首席科学家朱军提出Diffusion与Transformer 融合架构U-ViT。唐家渝说，U-ViT与Sora的DiT架构“几乎一模一样”。

今年4月，生数科技发布视频生成模型Vidu，支持最长16秒、最高1080P分辨率视频的生成。两个月后，视频时长升级为最长32秒。不过，生数科技7月底上线的Vidu官网仅提供4s和8s两种时长选择，其中4秒视频片段的生成时间仅需30秒。

据唐家渝介绍，生成时长的能力，本质上与模型对物理世界和对语义输入的理解相关。虽然仍计划拓展生成时长，但视频时长并不是当前生数科技产品化的重点。“90%以上的视频片段都是几秒钟，从实用角度来看，我们还没有优先考虑时长”。唐家渝说，目前的重点放在提升视频模型的应用性，简化创作流程。

Vidu上线后，生数科技开启了B端和C端并存的商业化路线：给B端提供API接口，向C端打造付费订阅使用模式。

唐家渝透露，目前B端市场的收入占比更高。鉴于B端有比较稳定和直接的需求，生数科技将B端作为长期的重点方向，围绕落地行业的实际场景进行磨合。客户群体上，主要覆盖广告、游戏、短剧和影视这些与视频内容相关的领域。C端方面，虽然Vidu上线一个多月内用户增长曲线高，但商业化仍处于探索阶段。

美图公司集团高级副总裁陈剑毅此前在2024世界人工智能大会一场论坛上谈到，对C端普通用户而言，视频模型一定程度上让过去很难通过实拍拍到的场景变得触手可及，但问题在于，普通用户很难有持续性的使用需求。他说，普通用户视频创作的意义，很多时候是表达情感以及记录生活。此时，AI能起到的作用非常有限。“哪怕三五年以后技术很成熟了，对于普通用户来说也不可能天天在朋友圈发自己的AI视频”。

采写：南都记者杨柳

编辑：李玲

南都新闻，未经授权不得转载。授权联系方式
banquan@nandu.cc. 020-87006626

本文作者

杨柳: 1386W

南方都市报记者

李玲: 3.67亿

南方都市报记者

网购12万余元预售产品迟迟未发货，法院：电商平台要担责

01:25

国台特约·寻找南粤新质生产力I第四期走进日化产业带

06:52

比亚迪宣布供应商账期不超60天！已有7家车企承诺

00:13

承诺60天账期后，广汽发公告：两个月内完成经销商返利兑现
南都汽车 3767读