国产超节点产品的“堆卡”规模经历一番急遽膨胀后,又在针对市场需求变化做减法。
3月26日,中科曙光(603019.SH)在2026中关村论坛期间发布一款搭载40张GPU的中小规模超节点产品,以应对持续增长的模型推理需求,尤其是智能体火爆带来的Token(词元)经济机遇。
中科曙光高级副总裁李斌接受南都等采访时表示,市面上动辄数百卡互连的超节点,主要适用于顶级AI模型的预训练场景,但对于AI推理场景“太过高配”,采购部署成本高,“已经远远超过了性能收益的甜点区”。与此同时,随着模型参数量的增大,传统用于模型推理服务的8卡GPU服务器又显得“过于落伍”,由此留下了市场空白。
所谓超节点,是通过高速互连技术,将数十、数百乃至数千张AI芯片堆叠耦合,构成一个超级计算节点,弥补单颗国产芯片性能的短板,已被视为AI基础设施的基本单元。自华为于2025年4月推出搭载384颗昇腾910C芯片的CloudMatrix 384超节点以来,超节点迅速成为行业焦点,浪潮信息、阿里云、百度云、中科曙光等芯片和服务器厂商相继跟进。其中,中科曙光在2025年11月发布的scaleX640超节点,支持单机柜640张卡互连。
曙光信息产业(北京)有限公司副总裁李柳介绍,超大规模模型训练需要千卡甚至万卡级别的超节点,但人工智能在各行业的商业化落地,更需要普惠属性、更具性价比的超节点方案——这考验产品的性能规模、能效散热、可维护性等方面的均衡设计。
超节点规模存在性能收益边际递减。李柳说,基于客户调研,公司发现40卡的超节点正处于性能与成本平衡的“甜点区”,可以覆盖大多数人工智能计算的场景。
中科曙光scaleX40超节点产品。图:杨柳
官方提供的关键参数显示,中科曙光新发布的这款scaleX40超节点集成40张GPU,FP8(8位浮点数)精度下的总算力超过28PFLOPS,HBM显存容量超过5TB,访存带宽超过80TB/s。
李柳告诉记者,scaleX40超节点的整体部署成本,与传统的5台8卡GPU服务器基本持平,但其训练性能最大提高120%,推理性能最大提升330%,这得益于包括计算、网络、存储、调度软件在内的整体性调优。
与业内超节点方案普遍依赖大规模线缆连接不同,scaleX40超节点的计算节点和用于片间互连的交换节点之间,采用无线缆架构,实现直接对插。在业内,英伟达NVL72超节点采用铜缆方案,而华为CloudMatrix 384超节点则使用光纤连接。中科曙光称,与铜缆方案相比,无线缆架构能提高超节点的可用性;相比光纤连接,无线缆连接能降低40%至70%的功耗。据李柳介绍,光纤连接会带来散热增加的难题,可能导致系统运行不稳定,增加了故障率。
为了降低安装和部署的门槛,scaleX40采用19英寸标准箱式设计,适配主流机柜,无需额外改造机房。李斌提到,目前市场上的超节点多为定制化的机柜,其对机房的供电、环境条件等有严苛要求,使用、调试与运维的门槛也非常高。
scaleX40超节点瞄准企业级AI基础设施的需求,比如大模型的微调,在金融、制造、政务等行业的私有化部署中用于企业级推理等。李柳对此表示,科研、教育、网络安全、政府部门、行业组织等垂直领域,由于数据普遍较为敏感,但数据量又有限,客户更倾向于大模型的私域部署。
采写:南都N视频记者 杨柳 发自北京
编辑:黄莉玲
更多报道请看专题:“芯”情