新一代ROCm 7性能飙升，AMD向CUDA发起挑战

景点排名 2025年09月19日 03:21 0 aa

AMD 通过发布 MI355X 加速器在硬件性能层面拉近了与英伟达 Blackwell 架构产品的距离。而如今，随着 ROCm 7.0 软件平台的正式推出，AMD 正致力于破解Nvidia凭借 CUDA 构建的软件生态壁垒，让开发者能够更充分地利用其硬件潜能。这一版本不仅为新一代芯片带来显著提升，同时也兼容较早发布的 MI300 系列加速器，进一步缩小了与 CUDA 的生态差距。

ROCm 是一套面向高性能计算与人工智能应用的软件平台，包含 HIP 框架等多项开发工具与底层编程接口。其设计理念与Nvidia的 CUDA 类似，但专为 AMD GPU 打造。自 2023 年推出首款专为 AI 优化的 MI300X 加速器以来，AMD 持续扩展 ROCm 对新型数据类型的支持、提升框架兼容性，并引入针对硬件的深度优化。

ROCm 7 被视为迄今最重要的更新。相比上一代，其在 MI300X 上的推理性能提升达 3.5 倍，训练任务中的有效浮点性能也提高了 3 倍。结合新一代 MI355X 加速器，AMD 宣称在运行 DeepSeek R1 模型时，其推理性能可达Nvidia B200 的 1.3 倍——当然，这类性能数据仍需实际验证。

尽管 MI350X 与 MI355X 在 FP4 浮点性能方面与Nvidia B200 接近（分别达到 9.2 和 10 petaFLOPS），但配备了108GB以上的HBM3e高带宽内存。而真正与 MI355X 形成竞争的是Nvidia B300，其不仅搭载 288 GB HBM3e，FP4 算力也达到 14 petaFLOPS，在参数层面显示出更强的推理潜力。

MI350 系列是 AMD 首款支持 OCP 微缩放数据类型（如 FP4）硬件加速的 GPU，这类低精度格式可大幅降低内存占用并提升计算吞吐量。ROCm 7.0 进一步扩大了对低精度数据类型的支持，其 Quark 量化框架也已进入生产就绪状态。与此前 MI300 发布近一年后才跟进 FP8 支持相比，这次 AMD 的软件响应速度明显加快。

此外，ROCm 7 还引入了专为生成式 AI 优化的计算引擎 AITER，可显著提升 MLA 解码和多头注意力机制预填充等关键操作的执行效率。在类似 DeepSeek R1的模型上，AITER 可实现两倍以上的吞吐提升。值得关注的是，AITER 与 MXFP4 数据类型已集成至 vLLM、SGLang 等主流推理引擎，用户仅需安装依赖项并设置环境变量即可启用。

新版本还扩大了对操作系统和虚拟化环境的支持，包括 Ubuntu 24.04.3 LTS、Rocky Linux 9，并提供了 KVM 透传功能。同时，ROCm 7 也原生兼容 PyTorch 2.7/2.9、TensorFlow 2.19.1 和 JAX 0.6 等主流机器学习框架。

针对大规模部署场景，AMD 推出了资源管理器与 AI Workbench 两款工具。前者提供集群监控、资源配额和访问控制，避免计算资源被过度占用；后者旨在简化大型基础模型的训练与微调流程。

ROCm 7.0 现已开放下载，用户可通过 AMD 官方支持站点或 Docker Hub 上的容器镜像获取该版本。

关注我，了解最新IT动态！