现阶段,AI生成视频通常需要“抽卡”,用户反复尝试、碰运气后,才能生成理想的结果。如何对抗生成内容的随机性,国产视频大模型厂商正努力让视频生成走向“高可控”成为可能。
清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军演讲。图片来源:中关村论坛。
3月29日下午,在2025中关村论坛年会“未来人工智能先锋论坛”上,清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军,现场发布业内首个高可控视频大模型Vidu Q1,称通过技术手段引入多元素控制,该模型在多主体细节可控、音效同步可控、画质增强方面取得进展,预计今年4月全球上线。
会后,朱军在接受南都等媒体采访时表示,视频的消费需求广阔,价值密度更高,商业化进程也更快。2025年将是AI(人工智能)视频商业化快速发展的一年。
朱军还提到,相比语言模型,视频模型赛道起步稍晚、不算拥挤。当前行业呈现多元竞争的格局,大概率不会出现“一家独大”的情况。未来视频模型将朝着“更可控、更好用”的方向发展。
AI生成的视频结果不可控,难点在哪?
去年4月,生数科技联合清华大学发布了国内首个长时长、高一致性、高动态性视频大模型Vidu。2025年1月,Vidu升级2.0版本,每秒单价成本降至最低4分钱,使人人可用成为可能。
AI视频生成从可用到好用,面临哪些技术门槛?朱军在主题演讲中提到,位置、运动轨迹、主体数量增加、音频同步可控,是值得关注的技术难点。
他以位置可控举例,在一个咖啡馆,服务员想把咖啡递给顾客,但杯子却飞了起来;如何让视频生成内容不会产生“乱飞”现象,这是个难题。在同一场景下,拿着咖啡的老人旁边,突然有机器人“闪现”;如何精准控制两个角色的相对位置,保持多主体一致性,也是AI视频生成领域的“老大难”问题。
2024年9月,Vidu全球率先发布“主体一致性”功能,将面部一致拓展至全身一致,范围也由人物形象扩展到动物、物体、虚拟角色等任意主体。两个月后发布Vidu 1.5模型,进一步聚焦多主体一致性的难题,开启视觉模型上下文时代。
据朱军介绍,此次发布的Vidu Q1,在多主体细节可控、音效同步可控、画质增强方面也取得了新的进展。
具体而言,在语义指令的基础上,能够通过融入参考图的视觉指令,支持对场景中角色的位置、大小、运动轨迹等属性进行更进一步的可控,并能精准调整所有动作行为,包括出场、退场、坐立姿态、行动路线等。
这意味着,用户能体验到以更低的“抽卡率”实现更高质量高可控的生成,而且还能与传统生产流程无缝衔接,基于参考稿直出视频,无需逐帧手绘,也直接跳过渲染环节。
不仅如此,这一新模型还能同步输出画面和音效。朱军现场展示的一段视频画面显示,用户可精准设置每段音频出现的时间点,如0—2秒风声,3—5秒雨声,这样既能节省时间,也可增强视频的沉浸感与感染力。
面向未来,朱军认为视频生成的发展方向广阔。一方面,可以做更丰富、更多种模态的高可控生成;另一方面,多模态技术在虚实结合、与物理世界交互等方面也具备更多可能性。
“我们的愿景是希望以视频大模型为起点,实现打通虚实结合的通用人工智能。”朱军说。
“2025年将是AI视频模型商业化快速发展的一年”
记者:目前,视频模型行业的竞争现状如何?和语言模型赛道相比,有何不同?
朱军:目前我们看到,视频生成赛道上的头部企业,大家做的东西各有特色,也都有各自的商业化路径,并没有出现像语言模型赛道非常“卷”的状态。
我觉得从长远来看,决定一家企业能走多远的因素有很多。一个关键是,团队能不能持续创新。因为不管我们今天讲这个模型有多先进,它都是一个阶段性的成果。要面向专业用户服务,如何做出更好的内容,怎么提高内容密度、效率和成本优化等,还需要不断突破。
今年我们推出Vidu2.0版本,就是要做“高质量、低成本”的视频生成,这种理念已经在行业里扎根。所以我们判断,在视频生成行业,很大概率不会出现像DeepSeek这种效率“遥遥领先”的模型。现在这个赛道,还没有到非常拥挤或者“一家独大”的局面。我们更期待视频模型变得“更可控、更好用”,让每个人都能用。
记者:当前行业融资环境如何?投资人更关心的是什么?
朱军:去年下半年,整个大模型行业的融资环境,变得更加谨慎。到了今年,融资环境整体向好。不同的阶段,投资人所看重的东西不一样。比如在早期孵化阶段,肯定更看重团队的质量。再往后期,既要看技术也要看商业化进展。
在视频生成领域,人们对视频消费的需求广阔,视频生成本身的价值密度更高,因而商业化进展也会更快,今年将是视频模型商业化快速发展的一年。
记者:在商业模式落地上,生数科技选择To B和To C两条腿走路,进展如何?
朱军:我们对C端提供的SaaS服务,目前已覆盖200多个国家和地区,上线100天内用户突破千万。对B端提供的Maas服务,我们通过API以及模型微调,也服务了大量的头部企业,涵盖动漫、广告、影视剧、泛互娱、文旅、游戏等行业。
记者:目前视频生成模型大多集中在5秒以内的短视频,这受技术能力所限还是成本问题?
朱军:我觉得主要还是成本问题。要降低成本,可以找更高性价比的算力适配,更主要的是优化算法模型的效率。在软硬件协同的逻辑下,我们持续做底层算法的优化,目前降本增效相对明显。
此外,模型大多生成5秒视频也跟用户使用习惯有关。如果要创作一分钟及以上的视频,需要写一个小故事,有完整的故事架构,而不是简单的图片生成视频。我认为,未来基座模型的能力肯定会越来越强,行业将朝着偏故事性的场景拓展,视频的时长和叙事性也会增强。
采写:南都记者李玲 发自北京
编辑:黄莉玲
更多报道请看专题:直击2025中关村论坛年会