性价比卷王!昆仑芯单机可部署满血版DeepSeek R1

南方都市报APP • 政商数据
原创2025-02-21 18:28

2月12日,摩根士丹利(亚洲)发布研究报告《DeepSeek-Al Bifurcation》,报告指出,DeepSeek的爆火催生了低成本人工智能市场,为数据中心、芯片及云服务提供商带来新的发展机遇,能够提供低成本、高效能服务的厂商将会脱颖而出。

近期,国内云服务商动作频频,以百度智能云为代表的主流云平台纷纷宣布接入DeepSeek系列模型,并推出低价方案及限时免费服务,大幅降低了企业使用AI技术的门槛。

图片

据了解,单机部署大模型在成本效益、数据安全和部署速度方面具有显著优势,但对芯片的性能提出了较高要求。昆仑芯作为国产高性能AI芯片,是国内率先支持单机部署满血版DeepSeek R1的国产芯,率先支持8bit推理,可提供精度无损的推理服务,单机8卡配置便可实现2437tokens/s吞吐。

同时,得益于昆仑芯成本优势,在私有化部署方面,百度智能云已经推出搭载昆仑芯P800的百舸、千帆一体机产品,可支持在单机环境下一键部署DeepSeek R1/V3全系列模型,提供开箱即用的便捷体验。其中,百舸DeepSeek一体机可满足高性能训练与推理需求,单机高吞吐,可支持500人团队并发使用,推理延迟低,平均50毫秒以内,运维成本低,最高可降低80%,从开箱到上电到服务上线最快仅需0.5天。

另外,在公有云服务方面,百度智能云千帆大模型平台为客户提供了DeepSeek R1/V3的API调用服务,价格低至DeepSeek官方刊例价的3折。

今年2月,百度智能云成功点亮昆仑芯三代万卡集群,这也是国内首个正式点亮的自研万卡集群。据悉,百度智能云将进一步点亮3万卡集群。从算力上看,超大规模并行计算能力可实现训练效率跃升,万卡集群可将千亿参数模型的训练周期大幅降低,满足AI原生应用快速迭代的需求。同时也能支持万亿参数模型、复杂任务和多模态数据,支撑Sora类应用的开发。此外,万卡集群能够支持多任务并发能力,通过动态资源切分,单集群可同时训练多个轻量化模型,通过通信优化与容错机制减少算力浪费,实现训练成本指数级下降。

随着国产大模型的兴起,万卡集群逐渐从“单任务算力消耗”到“集群效能最大化”过渡,通过模型优化、并行策略、有效训练率提升、动态资源分配等手段,智能调度任务,将训练、微调、推理任务混合部署,从而提升集群综合利用率,降低单位算力成本。

DeepSeek的崛起不仅为AI行业注入了新的活力,也推动了低成本、高效能AI服务的普及。国内云服务商和芯片厂商的快速响应,进一步降低了企业使用AI技术的门槛,为行业带来了更多可能性。DeepSeek与国产硬件的深度融合,正在为AI普惠化开辟一条全新的道路。


采写:南都记者 汪陈晨

编辑:田爱丽

南都新闻,未经授权不得转载。授权联系方式
banquan@nandu.cc. 020-87006626
本文作者