国产大模型再迎新突破。
4月28日晚间,南都湾财社记者获悉,商汤科技发布并开源了日日新SenseNova U1系列原生理解生成统一模型。这一动作试图在底层技术路线上打破行业惯用的“拼接式”多模态架构,通过自研的NEO-unify架构,在单一模型内实现多模态理解、推理与生成的原生统一。
当前,多模态大模型走向商业落地的最大掣肘之一在于高昂的算力消耗与协同损耗。业内传统方案普遍采用拼接组合模式——将独立的视觉编码器与语言大模型通过适配器强行串联。这样一来,信息在不同组件间来回转译,将导致延迟拉长、推理成本攀升以及细节保真度下降等问题。
在算力账面前,架构效率成为核心命题。据南都湾财社记者了解,此次发布的SenseNova U1系列剥离了独立的视觉编码器,将其构建为一个统一的表征空间。这种从“模态集成”向“原生统一”的跨越,意味着模型不再依赖单纯堆叠参数规模来弥补中间的转换损耗。
面向开发者,这提供了一条清晰的降本路径。官方基准测试显示,首批开源的轻量版规格(如8B参数模型),在图像生成与视觉推理等指标上,已能对标甚至超越部分大型商业闭源模型。这意味着基于高效的原生架构,开发者得以用低得多的计算成本,达到国际顶尖模型的水平。
架构的底层重构,向应用端释放了降低边际成本的信号。过去,企业与创作者在生成复杂信息图或连贯内容时,往往需要串联多个模型,易面临图像风格断裂和排版失控。
但记者了解到,此次SenseNova U1的原生架构,在业内实现了单次模型调用的连续性图文创作输出。针对创作者的实际需求,该模型在执行任务时,各步骤图示表现出了极高的一致性。模型能够完整保留上下文融合信号,在教学图解、数据可视化等高频商用场景中,简化工具链并压低了内容开发成本。
将视线拉长,多模态架构的整合与统一,不仅是在解决线上的数字图文生产,也在为实体经济的智能化铺路。物理世界的逻辑推理与空间智能,是通往具身智能的必经之路。
对于产业投资者与政务端而言,告别“拼接式”多模态,意味着AI系统真正开始深度理解物理世界的复杂布局与精细关系。告别“层层转述”的机制后,这被市场视为打响了“物理智能”的第一枪,正逐步弥合物理世界和数字世界。业内视其为一种长期的底层期权——未来,该类原生统一模型有望直接作为机器人的“具身大脑”,在单一闭环内打通环境感知、逻辑推演到精准任务执行的全链条。
采写:南都湾财社记者 严兆鑫