突破主体互动难关！豆包发布视频生成模型，有多镜头语言能力

南都N视频APP · 政商数据

原创2024-09-25 13:34

字节跳动正式宣告进军AI视频生成。9月24日，字节跳动旗下火山引擎在深圳举办AI创新巡展，一举发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型，面向企业市场开启邀测。
火山引擎总裁谭待表示，“视频生成有很多难关亟待突破。豆包两款模型会持续演进，在解决关键问题上探索更多可能性，加速拓展AI视频的创作空间和应用落地。”

火山引擎总裁谭待。

视频生成大模型破解多主体互动和一致性难题

在大会上，谭待宣布豆包正式推出视频生成模型，包括豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型，面向企业市场开启邀测。

此前，视频生成模型大多只能完成简单指令，豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互。有创作者在体验豆包视频生成模型时发现，其生成的视频不仅能够遵循复杂指令，让不同人物完成多个动作指令的互动，人物样貌、服装细节甚至头饰在不同运镜下也保持一致，接近实拍效果。

大会上展示了很多视频生成的案例，比如输入“一个侧对镜头的白人女人，摘掉墨镜，转身看向靠近她的杀手们”。这个描述包括了人的动作变化、镜头的变化，以及新人物的出现，模型则是根据这个指令生成一段完整的视频。

豆包视频生成模型根据指令完成的视频。

据火山引擎介绍，豆包视频生成模型基于 DiT 架构，通过高效的DiT融合计算单元，让视频在大动态与运镜中自由切换，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法更是攻克了多镜头切换的一致性难题，在镜头切换时可同时保持主体、风格、氛围的一致性。

据介绍，经过剪映、即梦AI等业务场景打磨和持续迭代，豆包视频生成模型具备专业级光影布局和色彩调和，画面视觉极具美感和真实感。深度优化的Transformer结构，则大幅提升了豆包视频生成的泛化能力，支持3D动画、2D动画、国画、黑白、厚涂等多种风格，适配电影、电视、电脑、手机等各种设备的比例，不仅适用于电商营销、动画教育、城市文旅、微剧本等企业场景，也能为专业创作者和艺术家们提供创作辅助。

目前，新款豆包视频生成模型正在即梦AI内测版小范围测试，未来将逐步开放给所有用户。即梦AI及剪映市场和运营负责人陈欣然认为，AI能够和创作者深度互动，共同创作，带来很多惊喜和启发，即梦AI希望成为用户最亲密和有智慧的创作伙伴。

同传模型采用端到端的模型架构

此次活动中，豆包大模型不仅新增视频生成模型，还发布了豆包音乐模型和同声传译模型，已全面覆盖语言、语音、图像、视频等全模态，全方位满足不同行业和领域的业务场景需求。

对于豆包音乐模型，谭待介绍称，音乐是一个复杂的综合体，涉及到词、曲、音调唱法，“豆包的音乐模型我们采用了全新的方案，实现了音乐生成的框架，从词、曲、唱三个方面来生成高质量的音乐。我们只需要输入一个prompt就可以得到一个情感表达准确的歌词。有了歌词，我们可以通过11种不同风格和情绪表达的选择进一步创作出歌曲。同时，得益于强大的豆包语音能力，我们在整个唱的方面其实会变得非常真实，包括对气口，还有真假音转化这些技巧的模拟，去媲美真人的演唱效果。”

南都记者在实测中发现，定制音乐分为灵感创作和自定义创作，在自定义创作下，用户可以输入歌词或者一键生词；而在灵感创作下，用户只要输入灵感，就可以生成几首不同风格的人声音乐。

而豆包的同声传译模型则是采用了全新的端到端的模型架构。谭待表示，传统的AI同声传译模型常用的是级联的模型方式，首先进行语音识别，然后再进行机器翻译，“这个准确率低有一个很大的问题，它有可能在语音识别那一块就没有听清楚，它没听有清楚，翻译的时候就开始瞎翻了。”

而端到端的方式可以让翻译更加精准、质量更高、时延更低，“我们迭代豆包语音克隆的能力，让它模拟一个真人的发音，这样去媲美一个真人的同传效果，而且在很多专业的场景里面可能会更好，因为它不会疲惫，它不会听漏。”

从效果展示来看，无论是语速超快、发音复杂的绕口令，还是文言文，又或是充满即兴和灵感的随意聊天，模型都能流畅地给出翻译结果。

豆包的同声传译模型展示。

豆包大模型日均Tokens调用量超过1.3万亿

在今年7月的巡展上，火山引擎曾披露，豆包大模型的日均Tokens调用量已经有5000亿。而在9月24日，谭待透露，截至9月，这个数据还在持续增长，现在已经超过1.3万亿，“我们在4个月的时间里，Tokens整体增长超过了10倍。”

除了在语言模型上，豆包大模型在多模态方面也披露了其进展。据大会披露，目前豆包文生图模型日均生成图片5000万张，此外，豆包目前还日均处理语音85 万小时，这个数字相当于7万天的广播节目播出总时长的总和。

此前，豆包大模型公布低于行业99%的定价，引领国内大模型开启降价潮。谭待认为，大模型价格已不再是阻碍创新的门槛，随着企业大规模应用，大模型支持更大的并发流量正在成为行业发展的关键因素。

据谭待介绍，业内多家大模型目前最高仅支持300K甚至100K的TPM（每分钟token数），难以承载企业生产环境流量。例如某科研机构的文献翻译场景，TPM峰值为360K，某汽车智能座舱的TPM峰值为420K，某AI教育公司的TPM峰值更是达到630K。为此，豆包大模型默认支持800K的初始TPM，远超行业平均水平，客户还可根据需求灵活扩容。

“在我们努力下，大模型的应用成本已经得到很好解决。大模型要从卷价格走向卷性能，卷更好的模型能力和服务。”谭待表示。

此次豆包 pro 还宣布上下文窗口也进行了升级。原来的豆包 pro 4K版本将直接升级到 32K，同时对长文本的128K窗口也进行了升级，现在豆包最长支持 256K的窗口。“给予最新升级的窗口，能同时处理约40万汉字，相当于一口气把《三体》第一部和第二部全部读一遍，而且我们所有的升级都是加量不加价，和原来128K完全同样的价格。” 谭待表示。

采写：南都记者汪陈晨

编辑：田爱丽