首页 景点排名文章正文

新一代ROCm 7性能飙升,AMD向CUDA发起挑战

景点排名 2025年09月19日 03:21 0 aa
新一代ROCm 7性能飙升,AMD向CUDA发起挑战

AMD 通过发布 MI355X 加速器在硬件性能层面拉近了与英伟达 Blackwell 架构产品的距离。而如今,随着 ROCm 7.0 软件平台的正式推出,AMD 正致力于破解Nvidia凭借 CUDA 构建的软件生态壁垒,让开发者能够更充分地利用其硬件潜能。这一版本不仅为新一代芯片带来显著提升,同时也兼容较早发布的 MI300 系列加速器,进一步缩小了与 CUDA 的生态差距。

ROCm 是一套面向高性能计算与人工智能应用的软件平台,包含 HIP 框架等多项开发工具与底层编程接口。其设计理念与Nvidia的 CUDA 类似,但专为 AMD GPU 打造。自 2023 年推出首款专为 AI 优化的 MI300X 加速器以来,AMD 持续扩展 ROCm 对新型数据类型的支持、提升框架兼容性,并引入针对硬件的深度优化。

ROCm 7 被视为迄今最重要的更新。相比上一代,其在 MI300X 上的推理性能提升达 3.5 倍,训练任务中的有效浮点性能也提高了 3 倍。结合新一代 MI355X 加速器,AMD 宣称在运行 DeepSeek R1 模型时,其推理性能可达Nvidia B200 的 1.3 倍——当然,这类性能数据仍需实际验证。

尽管 MI350X 与 MI355X 在 FP4 浮点性能方面与Nvidia B200 接近(分别达到 9.2 和 10 petaFLOPS),但配备了108GB以上的HBM3e高带宽内存。而真正与 MI355X 形成竞争的是Nvidia B300,其不仅搭载 288 GB HBM3e,FP4 算力也达到 14 petaFLOPS,在参数层面显示出更强的推理潜力。

MI350 系列是 AMD 首款支持 OCP 微缩放数据类型(如 FP4)硬件加速的 GPU,这类低精度格式可大幅降低内存占用并提升计算吞吐量。ROCm 7.0 进一步扩大了对低精度数据类型的支持,其 Quark 量化框架也已进入生产就绪状态。与此前 MI300 发布近一年后才跟进 FP8 支持相比,这次 AMD 的软件响应速度明显加快。

此外,ROCm 7 还引入了专为生成式 AI 优化的计算引擎 AITER,可显著提升 MLA 解码和多头注意力机制预填充等关键操作的执行效率。在类似 DeepSeek R1的模型上,AITER 可实现两倍以上的吞吐提升。值得关注的是,AITER 与 MXFP4 数据类型已集成至 vLLM、SGLang 等主流推理引擎,用户仅需安装依赖项并设置环境变量即可启用。

新版本还扩大了对操作系统和虚拟化环境的支持,包括 Ubuntu 24.04.3 LTS、Rocky Linux 9,并提供了 KVM 透传功能。同时,ROCm 7 也原生兼容 PyTorch 2.7/2.9、TensorFlow 2.19.1 和 JAX 0.6 等主流机器学习框架。

针对大规模部署场景,AMD 推出了资源管理器与 AI Workbench 两款工具。前者提供集群监控、资源配额和访问控制,避免计算资源被过度占用;后者旨在简化大型基础模型的训练与微调流程。

ROCm 7.0 现已开放下载,用户可通过 AMD 官方支持站点或 Docker Hub 上的容器镜像获取该版本。

关注我,了解最新IT动态!

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap