94%任务完成率,商汤Sage让车载智能体跑出云端实力

南都N视频APP · 南都汽车
原创2026-04-23 21:54

图片

当全球科技巨头仍在云端大模型赛道“重金押注、堆叠算力”时,中国AI企业商汤绝影悄然在另一个战场投下了一枚“深水炸弹”。

近日,该公司发布端侧多模态智能体基座大模型Sage,以“小身材、大能量”的姿态,在一项名为PinchBench的国际权威智能体评测中,以94%的最佳任务完成率,击败了包括Claude、GPT-5.4、Google Gemini在内的众多云端“巨无霸”模型。

图片

以小博大的效率革命

长久以来,汽车座舱的智能化面临一个“两难困境”:依赖云端,则存在延迟、成本高昂及网络稳定性问题;而受限于芯片算力,部署在车端本地(端侧)的模型,又大多只能进行简单的指令响应,难以胜任复杂的、多步骤的“智能体”任务。

Sage的出现,似乎正在打破这个僵局。这辆“小车”,凭什么跑赢了“超算”?

根据商汤绝影公布的资料,Sage模型的总参数规模为320亿,但在处理具体任务时,实际被激活参与运算的参数仅30亿。

打个比方,这就像一座拥有庞大图书馆(总参数)的智库,在面对任何具体问题时,都能瞬间找到最相关的几本书(激活参数)来高效解答,而非盲目地翻遍整个书库。

正是这种“精打细算”的效率,让Sage得以在资源有限的车载芯片(如英伟达Orin X)上流畅运行。相比之下,某些云端大模型要达到同样效果,其激活运算量是Sage的14倍甚至更多,好比用大型工业机械与一台高精度机床比赛加工精密零件,后者在特定场景下反而能凭借“巧劲”胜出。

PinchBench测试恰是检验这种“巧劲”的绝佳舞台。这个被业内称为“龙虾之父”推荐的评测,不考死记硬背,专测“真本事”。

它的任务库覆盖写作、编程、文件处理、日程规划等真实工作流,重点考察模型调用工具、分步骤推理、并最终完成复杂任务的能力。Sage在此拔得头筹,意味着其在“办事”的实战能力上,已不输甚至超越了那些需要庞大云端服务器支持的对手。

从“能听会说”到“说到做到”

端侧模型仅仅“瘦身”是不够的,要真正“聪明”起来,还需解决学习成本和执行准确性的难题。

为此,商汤为Sage配备了两项核心技术——“高效学习法”(SCOUT)和“实时纠错本”(ERL)。

训练AI完成一个复杂任务(比如规划一条整合了充电、餐饮、避开拥堵的跨城路线),如果让大模型自己反复试错,耗时长且计算成本(GPU小时)极高。

SCOUT(分级协同学习框架)便是用来解决“学费”太贵的问题。它的思路是“让侦察兵先探路”:先派一个轻量级的小模型快速尝试各种解决方案,把其中可行的路径筛选出来,再由大模型专注学习这些“高分经验”。这种方法被称可将复杂任务的学习成本降低约60%。

ERL(可擦除强化学习) 则致力于解决“一步错,步步错”的执行难题。

假如用户指示“帮我订一家明天适合家庭聚餐、有儿童娱乐区、且在我回家顺路上的餐厅”,需要模型连续完成多个推理步骤,一旦中间某步理解偏差(如忽略了“顺路”),结果就会谬以千里。

ERL技术赋予模型“边想边改”的能力,能够自动识别并擦除推理链条中的错误步骤,重新生成正确逻辑。这项技术让Sage在复杂任务上的完成率提升了20%。

正是这两项技术的结合,推动Sage从一个“语言模型”进化为了能独立闭环完成任务的“智能体基座”。

重新定义端侧AI的想象力

有行业专家认为,Sage的亮相,为智能汽车产业带来了多重变量的思考。

首先,是“舱驾一体”落地路径的清晰化。高级别自动驾驶与智能座舱的融合(舱驾一体)是行业共识,但融合的底层核心之一,是一个强大、高效且能本地实时处理多模态信息(语音、视觉、传感器数据)的“大脑”。

Sage证明了在现有主流车规级芯片上,部署能处理复杂规划、具备强推理能力的AI大脑是可行的,这为舱驾一体的量产方案扫清了一个关键的技术障碍。

其次,是端侧AI价值主张的强化。在隐私敏感、网络环境复杂(如隧道、山区)、以及需要瞬时响应的车载场景下,本地化能力无可替代。Sage的表现意味着端侧模型不再是简化版的云端附属,而能独立提供高质量、高可靠的服务,这或将引发车企在智能化方案上新的权衡。

因此,商汤绝影通过Sage模型,演示了一条绕过纯算力“军备竞赛”、通过架构与算法创新实现“降维打击”的路径。这不仅是技术的进步,更是工程化思维与商业洞察的胜利。当“小车”开始跑赢“超算”,整个智能汽车产业链的玩家,或许都需要重新审视手中的技术地图与竞争策略。

 

采写:南都·湾财社记者 胡雯雯

编辑:黄露

南都N视频,未经授权不得转载、授权联系方式
banquan@nandu.cc. 020-87006626