AI“暴力美学”持续奏效，科技巨头竞相部署“十万卡集群”

南方都市报APP • AI前哨站

原创2024-09-26 09:46

“万卡集群”已成为大模型军备竞赛的最低标配，科技巨头不满足于此，纷纷开启“十万卡集群”的AI大基建步伐。

9月25日的百度云智大会上，百度宣布升级作为算力基础设施的百舸AI异构计算平台。百度集团执行副总裁、百度智能云事业群总裁沈抖说，新升级的百舸4.0已经具备了成熟的十万卡集群部署和管理能力。

百度云智大会上，百度推出百舸4.0平台。图：杨柳

约一周前，阿里云在云栖大会宣布其单网络集群已扩展至十万卡级别。此前9月初，马斯克在社交平台披露，短短122天时间，旗下AI初创公司xAI部署完成10万张英伟达H100 GPU芯片组成的Colossus超算集群，而且未来几个月将翻倍至20万张卡。

沈抖预测称，大模型的Scaling Law（尺度定律）将在一段时间内持续有效，“很快就会有更多的十万卡集群出现”。

所谓Scaling Law，即AI的“暴力美学”，当数据量和参数规模增加，模型的性能随之提升。但指数级增长的训练数据量，又对底层算力基础设施提出考验。为了快速迭代训练大模型，“万卡集群”乃至“十万卡集群”就成了大模型军备竞赛的先决条件。

然而，超大规模的GPU算力集群面临成本高、难运维的挑战。据沈抖介绍，建一个“万卡集群”，单是GPU的采购成本就高达几十亿。一旦一张GPU出现故障，就会导致集群整体停摆，大量时间、成本浪费在故障恢复和数据回滚上。在模型训练阶段，稳定和高效是衡量GPU集群水平的“金指标”和“硬通货”。

沈抖介绍说，百舸4.0 会通过AI算法筛查集群状态，预测故障最有可能在什么地方发生，尽量避免把工作负载分配到可能发生故障的芯片上；同时借助故障秒级感知定位、Flash Checkpoint模型任务状态回滚等技术，大幅减少集群故障处置时间。

当智算集群规模来到十万卡级别，管理的难度会进一步加大，沈抖描述称，管理十万卡的难度与管理万卡有着天壤之别。他说，在物理空间方面，十万卡集群需要占据大概10万平方米空间，相当于14个标准足球场的面积；在能耗方面，每天则要消耗大约300万千瓦时的电力，相当于北京市东城区一天的居民用电量。

“这种对于空间和能源的巨大需求，远远超过了传统机房部署方式的承载能力，跨地域机房部署又会给网络通信带来巨大挑战。”沈抖表示，“十万卡集群”中的GPU故障将会非常频繁。Meta用1.6万张卡训练Llama 3时，每3小时就会出一次故障，推演到10万卡，意味着每30分钟训练就要中断一次，导致有效训练时长占比非常低。

为了应对这些运维问题，百度方面介绍说，百舸4.0已经构建了十万卡级别的超大规模无拥塞HPN（High Performance Networking）高性能网络、10ms（毫秒）级别超高精度网络监控，以及面向“十万卡集群”的分钟级故障恢复能力。

采写：南都记者杨柳

编辑：李玲

南都新闻，未经授权不得转载。授权联系方式
banquan@nandu.cc. 020-87006626

本文作者

杨柳: 1412W

南方都市报记者

李玲: 3.67亿

南方都市报记者

美国科技圈再迎中国AI冲击波，科学家：该醒来了
政商数据 2万读

“世赛通”AI智能体上线，资讯、技术科研资料一键搜索

03:06

AI搭档机器人，赋能医学生实践技能训练与考核

00:31

起航！助力环球科考十年计划，“空海潜”无人集群亮剑南海
深圳大件事