首页 今日快讯文章正文

华为超节点架构挑战英伟达:万卡集群技术能否重塑AI算力格局

今日快讯 2025年09月19日 18:26 0 aa
华为超节点架构挑战英伟达:万卡集群技术能否重塑AI算力格局

华为在2025年全联接大会上正式发布的万卡集群技术,标志着中国在AI算力基础设施领域的重大突破。通过自研的超节点架构和"灵衢"互联协议,华为构建了从芯片到集群的完整技术体系,直接挑战英伟达在高端AI算力市场的垄断地位。这一技术路线的核心在于系统性创新,而非单纯的芯片性能竞争。

华为超节点架构挑战英伟达:万卡集群技术能否重塑AI算力格局


华为轮值董事长徐直军在大会上宣布推出Atlas 950 SuperCluster和Atlas 960 SuperCluster两款超节点集群产品,算力规模分别超过50万卡和达到百万卡级别。更为重要的是,华为同步发布了面向超节点的互联协议"灵衢"(UnifiedBus),并宣布将开放灵衢2.0技术规范,欢迎产业界基于此协议研发相关产品和部件,共建开放生态。

超节点架构:从计算单元到算力统一体

华为的万卡集群技术路线核心在于超节点(SuperPod)架构的系统性创新。与传统AI集群依赖单一芯片性能提升的路径不同,华为通过超节点技术将数千张AI芯片整合为一个统一的计算系统,实现"让整个集群像一台计算机一样工作、学习、思考、推理"的技术目标。

华为超节点架构挑战英伟达:万卡集群技术能否重塑AI算力格局


Atlas 950 SuperPod基于昇腾950PR芯片构建,支持高达6144张昇腾卡的部署,总算力达到10 EFLOPS。更为强大的Atlas 960 SuperPod则扩展至15488张昇腾960芯片,FP8算力达到30 EFLOPS,FP4算力更是高达60 EFLOPS,互联带宽达到34PB/s,训练和推理性能相较Atlas 950分别提升3倍和4倍。

这种超节点架构的技术优势在于突破了传统AI集群面临的互联瓶颈。华为已实现商业化发货的昇腾384超节点,将384颗昇腾AI芯片通过高速互联网络技术连接,实现了单节点内部的高效协同。相比之下,英伟达的SuperPod概念虽然提出较早,但在大规模集群的系统性整合方面仍存在技术挑战,目前主流的NVL144配置仅支持144张H100芯片的互联。

华为超节点架构的另一个重要创新在于芯片设计理念的转变。昇腾950PR开始全面支持FP8、MXFP8、HIF8、MXFP4和HIF4等低精度数据格式,其中FP8/MXFP8/HIF8算力达到1 PFLOPS,MXFP4算力更是高达2 PFLOPS。这种多精度支持设计针对AI训练和推理的不同需求进行优化,相较传统的单一精度设计更加高效。

灵衢协议:万卡互联的技术突破

华为在万卡集群技术中最重要的创新是"灵衢"(UnifiedBus)互联协议的推出。这一协议解决了大规模AI集群面临的长距离高可靠、大带宽低时延等关键技术挑战,是万卡级别集群得以实现的核心技术基础。

华为超节点架构挑战英伟达:万卡集群技术能否重塑AI算力格局


灵衢协议基于华为30多年构筑的联接技术能力,通过系统性创新实现了超节点间的高效互联。与英伟达的NVLink协议相比,灵衢协议在带宽和延迟方面都有显著优势。Atlas 960超节点的互联带宽达到34PB/s,远超英伟达NVL144的互联能力。

更为重要的是,华为宣布将开放灵衢2.0技术规范,这一开放策略旨在构建围绕灵衢协议的产业生态。目前,超节点架构产品在全球范围内只有英伟达的NVLink和华为的灵衢UB两种技术路线。华为通过开放技术规范,有望吸引更多硬件厂商基于灵衢协议开发相关产品,形成与英伟达CUDA生态对抗的技术联盟。

灵衢协议的技术特点还体现在其对不同应用场景的适配性上。协议设计充分考虑了AI训练和推理的不同需求,通过动态带宽分配和优先级调度,实现了计算资源的高效利用。这种设计理念使得华为的万卡集群能够在大模型训练、科学计算、推理服务等多种场景下保持高性能表现。

芯片路线图:自研HBM的战略意义

华为公布的未来三年昇腾芯片发展路线图显示了其在AI芯片领域的长期技术规划。昇腾950PR将于2026年第一季度推出,该芯片首次采用华为自研HBM(高带宽内存)技术,这一突破具有重要的战略意义。

华为超节点架构挑战英伟达:万卡集群技术能否重塑AI算力格局


华为自研HBM技术包括HiBL 1.0和HiZQ 2.0两个版本。昇腾950PR和950DT分别支持这两种HBM技术,内存带宽分别提升至1.6TB/s和4.0TB/s。到昇腾960和970阶段,内存带宽将进一步提升至9.6TB/s和14.4TB/s。昇腾950DT的内存容量更是达到288GB,内存带宽高达9.6TB/s。

这种自研HBM技术的推出,不仅解决了华为在高端存储技术方面的供应链安全问题,更重要的是为其万卡集群提供了性能保障。在大规模AI计算中,内存带宽往往成为性能瓶颈,华为通过自研HBM技术实现了在这一关键领域的技术自主。

华为的芯片路线图还显示,960和970芯片将分别于2027年和2028年推出,每代产品性能相较上一代翻倍。其中昇腾970的目标是实现半精度4000T FLOPS算力,较920C提升5倍。虽然以当前7纳米制程技术可能无法完全实现这一目标,但华为通过架构创新和系统优化,仍有望在实际应用中达到预期性能表现。

市场竞争:挑战与机遇并存的战略博弈

华为万卡集群技术面临的市场竞争既有技术层面的挑战,也存在生态建设方面的机遇。从技术维度看,华为的超节点架构在某些关键指标上已经超越英伟达的对应产品。Atlas 950超节点的算力比英伟达NVL144强6.7倍,内存大15倍,带宽宽62倍,这些参数优势为华为在高端AI应用场景中提供了竞争基础。

然而,生态系统建设仍是华为面临的最大挑战。英伟达的CUDA生态经过十多年发展,已成为AI开发的事实标准,拥有庞大的开发者社区和丰富的软件工具链。华为的昇思MindSpore等AI框架虽然在技术上不断进步,但在全球开发者接受度和应用广度方面仍需要时间积累。

华为超节点架构挑战英伟达:万卡集群技术能否重塑AI算力格局


从市场机遇看,地缘政治环境为华为提供了重要的发展窗口。英伟达H20等针对中国市场的阉割版产品在性能上存在明显限制,而华为昇腾910B在与英伟达H20的对比中各有千秋。英伟达H20在显存、互联等领域更领先,同时能够支持英伟达CUDA等软件系统,但单卡算力较低。华为昇腾910B虽然在某些方面存在差距,但在算力密度和成本效益方面具有优势。

中国政府对科技自立自强的政策支持也为华为万卡集群的市场推广提供了有利环境。2024年以来,中国智算中心建设驶入快车道,万卡集群项目加速落地成为明显趋势。华为昇腾已经在华为云和28个城市的智能算力中心大规模部署,根据相关报道,2022年昇腾占据国内智算中心约79%的市场份额。

华为万卡集群技术代表了中国在AI基础设施领域的重要探索方向。通过超节点架构和灵衢协议的系统性创新,华为构建了从芯片到集群的完整技术体系,为中国AI产业的发展提供了重要的技术支撑。虽然在生态建设等方面仍面临挑战,但凭借技术创新能力、成本优势和本土市场支撑,华为正在全球AI算力竞争中占据越来越重要的位置。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap