AI“暴力美学”持续奏效,科技巨头竞相部署“十万卡集群”

南方都市报APP • AI前哨站
原创2024-09-26 09:46

“万卡集群”已成为大模型军备竞赛的最低标配,科技巨头不满足于此,纷纷开启“十万卡集群”的AI大基建步伐。

9月25日的百度云智大会上,百度宣布升级作为算力基础设施的百舸AI异构计算平台。百度集团执行副总裁、百度智能云事业群总裁沈抖说,新升级的百舸4.0已经具备了成熟的十万卡集群部署和管理能力。

图片

百度云智大会上,百度推出百舸4.0平台。图:杨柳

约一周前,阿里云在云栖大会宣布其单网络集群已扩展至十万卡级别。此前9月初,马斯克在社交平台披露,短短122天时间,旗下AI初创公司xAI部署完成10万张英伟达H100 GPU芯片组成的Colossus超算集群,而且未来几个月将翻倍至20万张卡。

沈抖预测称,大模型的Scaling Law(尺度定律)将在一段时间内持续有效,“很快就会有更多的十万卡集群出现”。

所谓Scaling Law,即AI的“暴力美学”,当数据量和参数规模增加,模型的性能随之提升。但指数级增长的训练数据量,又对底层算力基础设施提出考验。为了快速迭代训练大模型,“万卡集群”乃至“十万卡集群”就成了大模型军备竞赛的先决条件。

然而,超大规模的GPU算力集群面临成本高、难运维的挑战。据沈抖介绍,建一个“万卡集群”,单是GPU的采购成本就高达几十亿。一旦一张GPU出现故障,就会导致集群整体停摆,大量时间、成本浪费在故障恢复和数据回滚上。在模型训练阶段,稳定和高效是衡量GPU集群水平的“金指标”和“硬通货”。

沈抖介绍说,百舸4.0 会通过AI算法筛查集群状态,预测故障最有可能在什么地方发生,尽量避免把工作负载分配到可能发生故障的芯片上;同时借助故障秒级感知定位、Flash Checkpoint模型任务状态回滚等技术,大幅减少集群故障处置时间。

当智算集群规模来到十万卡级别,管理的难度会进一步加大,沈抖描述称,管理十万卡的难度与管理万卡有着天壤之别。他说,在物理空间方面,十万卡集群需要占据大概10万平方米空间,相当于14个标准足球场的面积;在能耗方面,每天则要消耗大约300万千瓦时的电力,相当于北京市东城区一天的居民用电量。

“这种对于空间和能源的巨大需求,远远超过了传统机房部署方式的承载能力,跨地域机房部署又会给网络通信带来巨大挑战。”沈抖表示,“十万卡集群”中的GPU故障将会非常频繁。Meta用1.6万张卡训练Llama 3时,每3小时就会出一次故障,推演到10万卡,意味着每30分钟训练就要中断一次,导致有效训练时长占比非常低。

为了应对这些运维问题,百度方面介绍说,百舸4.0已经构建了十万卡级别的超大规模无拥塞HPN(High Performance Networking)高性能网络、10ms(毫秒)级别超高精度网络监控,以及面向“十万卡集群”的分钟级故障恢复能力。

 

采写:南都记者 杨柳

编辑:李玲

对这篇文章有想法?跟我聊聊吧
南都新闻,未经授权不得转载。授权联系方式:
banquan@nandu.cc,020-87006626。