中科曙光推出40卡超节点，卡位智能体爆发算力机遇

南都N视频APP · AI前哨站

原创2026-03-26 19:38

国产超节点产品的“堆卡”规模经历一番急遽膨胀后，又在针对市场需求变化做减法。

3月26日，中科曙光（603019.SH）在2026中关村论坛期间发布一款搭载40张GPU的中小规模超节点产品，以应对持续增长的模型推理需求，尤其是智能体火爆带来的Token（词元）经济机遇。

中科曙光高级副总裁李斌接受南都等采访时表示，市面上动辄数百卡互连的超节点，主要适用于顶级AI模型的预训练场景，但对于AI推理场景“太过高配”，采购部署成本高，“已经远远超过了性能收益的甜点区”。与此同时，随着模型参数量的增大，传统用于模型推理服务的8卡GPU服务器又显得“过于落伍”，由此留下了市场空白。

所谓超节点，是通过高速互连技术，将数十、数百乃至数千张AI芯片堆叠耦合，构成一个超级计算节点，弥补单颗国产芯片性能的短板，已被视为AI基础设施的基本单元。自华为于2025年4月推出搭载384颗昇腾910C芯片的CloudMatrix 384超节点以来，超节点迅速成为行业焦点，浪潮信息、阿里云、百度云、中科曙光等芯片和服务器厂商相继跟进。其中，中科曙光在2025年11月发布的scaleX640超节点，支持单机柜640张卡互连。

曙光信息产业（北京）有限公司副总裁李柳介绍，超大规模模型训练需要千卡甚至万卡级别的超节点，但人工智能在各行业的商业化落地，更需要普惠属性、更具性价比的超节点方案——这考验产品的性能规模、能效散热、可维护性等方面的均衡设计。

超节点规模存在性能收益边际递减。李柳说，基于客户调研，公司发现40卡的超节点正处于性能与成本平衡的“甜点区”，可以覆盖大多数人工智能计算的场景。

中科曙光scaleX40超节点产品。图：杨柳

官方提供的关键参数显示，中科曙光新发布的这款scaleX40超节点集成40张GPU，FP8（8位浮点数）精度下的总算力超过28PFLOPS，HBM显存容量超过5TB，访存带宽超过80TB/s。

李柳告诉记者，scaleX40超节点的整体部署成本，与传统的5台8卡GPU服务器基本持平，但其训练性能最大提高120%，推理性能最大提升330%，这得益于包括计算、网络、存储、调度软件在内的整体性调优。

与业内超节点方案普遍依赖大规模线缆连接不同，scaleX40超节点的计算节点和用于片间互连的交换节点之间，采用无线缆架构，实现直接对插。在业内，英伟达NVL72超节点采用铜缆方案，而华为CloudMatrix 384超节点则使用光纤连接。中科曙光称，与铜缆方案相比，无线缆架构能提高超节点的可用性；相比光纤连接，无线缆连接能降低40%至70%的功耗。据李柳介绍，光纤连接会带来散热增加的难题，可能导致系统运行不稳定，增加了故障率。

为了降低安装和部署的门槛，scaleX40采用19英寸标准箱式设计，适配主流机柜，无需额外改造机房。李斌提到，目前市场上的超节点多为定制化的机柜，其对机房的供电、环境条件等有严苛要求，使用、调试与运维的门槛也非常高。

scaleX40超节点瞄准企业级AI基础设施的需求，比如大模型的微调，在金融、制造、政务等行业的私有化部署中用于企业级推理等。李柳对此表示，科研、教育、网络安全、政府部门、行业组织等垂直领域，由于数据普遍较为敏感，但数据量又有限，客户更倾向于大模型的私域部署。

采写：南都N视频记者杨柳发自北京

编辑：黄莉玲

更多报道请看专题：聚焦2026中关村论坛年会
 “芯”情

南都N视频，未经授权不得转载、授权联系方式
banquan@nandu.cc. 020-87006626

本文作者