94%任务完成率，商汤Sage让车载智能体跑出云端实力

南都N视频APP · 南都汽车

原创2026-04-23 21:54

当全球科技巨头仍在云端大模型赛道“重金押注、堆叠算力”时，中国AI企业商汤绝影悄然在另一个战场投下了一枚“深水炸弹”。

近日，该公司发布端侧多模态智能体基座大模型Sage，以“小身材、大能量”的姿态，在一项名为PinchBench的国际权威智能体评测中，以94%的最佳任务完成率，击败了包括Claude、GPT-5.4、Google Gemini在内的众多云端“巨无霸”模型。

以小博大的效率革命

长久以来，汽车座舱的智能化面临一个“两难困境”：依赖云端，则存在延迟、成本高昂及网络稳定性问题；而受限于芯片算力，部署在车端本地（端侧）的模型，又大多只能进行简单的指令响应，难以胜任复杂的、多步骤的“智能体”任务。

Sage的出现，似乎正在打破这个僵局。这辆“小车”，凭什么跑赢了“超算”？

根据商汤绝影公布的资料，Sage模型的总参数规模为320亿，但在处理具体任务时，实际被激活参与运算的参数仅30亿。

打个比方，这就像一座拥有庞大图书馆（总参数）的智库，在面对任何具体问题时，都能瞬间找到最相关的几本书（激活参数）来高效解答，而非盲目地翻遍整个书库。

正是这种“精打细算”的效率，让Sage得以在资源有限的车载芯片（如英伟达Orin X）上流畅运行。相比之下，某些云端大模型要达到同样效果，其激活运算量是Sage的14倍甚至更多，好比用大型工业机械与一台高精度机床比赛加工精密零件，后者在特定场景下反而能凭借“巧劲”胜出。

PinchBench测试恰是检验这种“巧劲”的绝佳舞台。这个被业内称为“龙虾之父”推荐的评测，不考死记硬背，专测“真本事”。

它的任务库覆盖写作、编程、文件处理、日程规划等真实工作流，重点考察模型调用工具、分步骤推理、并最终完成复杂任务的能力。Sage在此拔得头筹，意味着其在“办事”的实战能力上，已不输甚至超越了那些需要庞大云端服务器支持的对手。

从“能听会说”到“说到做到”

端侧模型仅仅“瘦身”是不够的，要真正“聪明”起来，还需解决学习成本和执行准确性的难题。

为此，商汤为Sage配备了两项核心技术——“高效学习法”（SCOUT）和“实时纠错本”（ERL）。

训练AI完成一个复杂任务（比如规划一条整合了充电、餐饮、避开拥堵的跨城路线），如果让大模型自己反复试错，耗时长且计算成本（GPU小时）极高。

SCOUT（分级协同学习框架）便是用来解决“学费”太贵的问题。它的思路是“让侦察兵先探路”：先派一个轻量级的小模型快速尝试各种解决方案，把其中可行的路径筛选出来，再由大模型专注学习这些“高分经验”。这种方法被称可将复杂任务的学习成本降低约60%。

ERL（可擦除强化学习）则致力于解决“一步错，步步错”的执行难题。

假如用户指示“帮我订一家明天适合家庭聚餐、有儿童娱乐区、且在我回家顺路上的餐厅”，需要模型连续完成多个推理步骤，一旦中间某步理解偏差（如忽略了“顺路”），结果就会谬以千里。

ERL技术赋予模型“边想边改”的能力，能够自动识别并擦除推理链条中的错误步骤，重新生成正确逻辑。这项技术让Sage在复杂任务上的完成率提升了20%。

正是这两项技术的结合，推动Sage从一个“语言模型”进化为了能独立闭环完成任务的“智能体基座”。

重新定义端侧AI的想象力

有行业专家认为，Sage的亮相，为智能汽车产业带来了多重变量的思考。

首先，是“舱驾一体”落地路径的清晰化。高级别自动驾驶与智能座舱的融合（舱驾一体）是行业共识，但融合的底层核心之一，是一个强大、高效且能本地实时处理多模态信息（语音、视觉、传感器数据）的“大脑”。

Sage证明了在现有主流车规级芯片上，部署能处理复杂规划、具备强推理能力的AI大脑是可行的，这为舱驾一体的量产方案扫清了一个关键的技术障碍。

其次，是端侧AI价值主张的强化。在隐私敏感、网络环境复杂（如隧道、山区）、以及需要瞬时响应的车载场景下，本地化能力无可替代。Sage的表现意味着端侧模型不再是简化版的云端附属，而能独立提供高质量、高可靠的服务，这或将引发车企在智能化方案上新的权衡。

因此，商汤绝影通过Sage模型，演示了一条绕过纯算力“军备竞赛”、通过架构与算法创新实现“降维打击”的路径。这不仅是技术的进步，更是工程化思维与商业洞察的胜利。当“小车”开始跑赢“超算”，整个智能汽车产业链的玩家，或许都需要重新审视手中的技术地图与竞争策略。

采写：南都·湾财社记者胡雯雯

编辑：黄露

南都N视频，未经授权不得转载、授权联系方式
banquan@nandu.cc. 020-87006626

本文作者