华为2025放大招，万卡集群+灵衢协议，英伟达霸权不稳？

AI科技 2025年09月20日 20:29 0 admin

2025年华为全联接大会上，直接甩出了万卡集群技术，还带了Atlas950和960两款超节点产品，连“灵衢”互联协议都一起发布了。

这事儿可不是小打小闹，等于中国在AI算力这块，终于有了能跟英伟达叫板的硬家伙。

超节点破瓶颈

说实话，以前AI集群总盯着单芯片性能猛堆，就跟攒电脑只加CPU不加内存条似的，没用。

华为这超节点思路不一样，直接把几千张AI芯片拧成一个“大电脑”，让整个集群跟一台机器似的干活。

本来想觉得这只是概念，后来发现人家真做出来了，Atlas950能装6144张昇腾卡，算力到10EFLOPS，Atlas960更狠，15488张卡，FP4算力直接干到60EFLOPS，互联带宽34PB/s。

现在华为还有能商用的昇腾384超节点，384颗芯片连起来就能用,反观英伟达，虽然早提出SuperPod，但主流的NVL144最多只能连144张H100芯片，这差距一下就拉开了。

而且昇腾950PR还支持好几种低精度格式，训练用FP8保准头，推理用MXFP4省力气，这种按需调整的设计，比只搞一种精度的老办法聪明多了。

光把芯片凑一块还不行，怎么让它们顺畅沟通才是关键，这时候华为的“灵衢”协议就派上用场了。

灵衢联万卡

灵衢协议是真能解决问题，长距离传输稳、带宽大还不延迟，这才撑得起万卡规模的集群。

对比英伟达的NVLink，Atlas960那34PB/s的带宽，比NVL144高太多了，更重要的是，华为还开放了灵衢2.0的规范，现在浪潮、曙光都打算跟着做相关产品，甚至联合高校搞实验室。

这步开放走得挺对,英伟达靠CUDA生态垄断这么多年，开发者早习惯了它那套工具。

华为单靠自己推昇思框架太难，拉上一群伙伴一起建生态，成功概率才大，而且灵衢还能根据场景调资源。

比如训练时多给带宽，推理时减延迟，之前百度测试过，用灵衢的集群同时干训练和推理，效率掉得特别少，这实用性确实强。

有了硬件和协议，华为在芯片上还有长远打算，这也决定了它跟英伟达博弈的底气。

博弈看未来

华为公布了未来三年的昇腾芯片路线图，2026年要出的950PR，第一次用了自研的HBM技术，内存带宽直接提上去了，后面960、970还会接着升级，目标是把算力翻好几倍。

自研HBM这步太关键了，以前高端内存总被国外卡脖子，现在自己能做，不光供应链安全了，还能把成本降下来，这对大规模部署太重要了。

现在华为的优势很明显，Atlas950的算力、内存、带宽都比英伟达NVL144强不少，单PFlops成本还低。

但短板也突出，CUDA生态的底子太厚，华为昇思的开发者数量还差得远，不过好在国内智算中心建设在加速，28个城市都用了昇腾的设备。

2022年国内智算中心79%都是它的份额，再加上英伟达给中国的H20芯片性能砍了不少，华为刚好能补这个缺口。

总的来说，华为这万卡集群技术，不光是自己技术上的突破，更给国内AI算力挣了个自主的机会。

能不能真重塑全球算力格局，现在还不好说，但至少让英伟达知道，后面有人追上来了。

而且华为开放生态、自研关键技术的路子，比只拼硬件参数要长远，假以时日，说不定真能改写AI算力的游戏规则。

亮亮视野D++轮融资，投资方为氪基金

发表评论