首页 今日快讯文章正文

OpenAI 幕后大神 Scott Gray:凭一手 CUDA Kernel 撑起万亿计算

今日快讯 2025年10月04日 14:51 1 admin

前阵子 X 上有个帖子突然火了,说 OpenAI 每天要跑数万亿次的计算,撑住这一切的居然是一个工程师写的 CUDA Kernel。

OpenAI 幕后大神 Scott Gray:凭一手 CUDA Kernel 撑起万亿计算

评论区里立马炸开了锅,有人猜是这个大佬,有人猜是那个专家,最后翻来覆去比对,大家都觉得这人应该是 OpenAI 的 Scott Gray,后来我去看了眼 OpenAI 官网,还真没猜错,他的介绍里明明白白写着,工作重心就是优化深度网络在 GPU 上的性能。

OpenAI 幕后大神 Scott Gray:凭一手 CUDA Kernel 撑起万亿计算

我之前总觉得 AI 圈里最牛的是那些搞算法、发论文的人,毕竟他们的名字总出现在聚光灯下,但看了 Scott 这事才反应过来,能在底层硬件上玩明白的,才是真的 “隐形大佬”。

为什么一个写 CUDA Kernel 的工程师能让整个 AI 圈都关注?这活儿的门槛真不是一般高,你得同时懂并行计算的理论,知道 GPU 硬件到底是怎么干活的,还得把深度学习算法摸得透透的,这三样凑齐还能融会贯通的人,全球都没几个。

大多数开发者其实就停在应用层,拿现成的工具比如 PyTorch、TensorFlow 调用个 API 就行,不用碰底层,就算是做推理优化的人,也比这轻松点,毕竟他们面对的问题边界更清晰。

OpenAI 幕后大神 Scott Gray:凭一手 CUDA Kernel 撑起万亿计算

但是,Scott 干的事不一样,他要从无到有写能支撑模型训练的 CUDA Kernel,尤其是反向传播那块,难度直接拉满,还得做到比 NVIDIA 官方的 cuDNN 库性能还好。

你想想,这就跟你自己做的菜,比五星级酒店大厨做的还好吃一样,得多厉害才能办到?Scott 也不是那种天生的 “神童” 科学家,他走的路其实挺 “踏实” 的。

他毕业于 UIUC,学的是物理和计算机科学双专业,可能有人不知道,UIUC 的计算机系在并行计算和硬件架构这块特别牛,全美都能排前五,他在那上学的时候,估计就把基础打得特别牢。

OpenAI 幕后大神 Scott Gray:凭一手 CUDA Kernel 撑起万亿计算

2016 年他入职 OpenAI 之前,还在 Nervana 待过,专门搞 GPU 汇编级的内核优化,前 Nervana 的 CEO 还在评论区里说,当年在论坛上发现 Scott,当场就决定把他招进来,还夸他是 “全球最强 GPU 程序员”。

能让老东家这么公开夸,能力肯定差不了

在 Nervana,绕开规则,直接跟 GPU “对话”,Scott 在 Nervana 的时候,正好是深度学习要爆发的前夜,但当时有个大问题 , 软件框架和底层 GPU 硬件没配合好,效率差得远。

那时候,大多数人都用 NVIDIA 的 CUDA C/C++ 和官方库,比如 cuBLAS、cuDNN,但这些工具一层层抽象下来,把 GPU 的硬件细节都藏起来了,性能也跟着上不去,就像给跑车装了个限速器。

OpenAI 幕后大神 Scott Gray:凭一手 CUDA Kernel 撑起万亿计算

Scott 一看这情况,没想着在现有框架里小修小补,反而自己搞了个叫 maxas 的汇编器,他认为 NVIDIA 官方的汇编器在分配寄存器、调度指令的时候有问题,会浪费性能。

maxas 不一样,它能绕开编译器,让开发者直接写最底层的 SASS 机器码,这就相当于别人都在隔着玻璃指挥 GPU 干活,Scott 直接推门进去,手把手教 GPU 怎么干。

有了 maxas,他还做了个实验 , 手写了一个 SGEMM 内核,就是单精度通用矩阵乘法,这是神经网络里最核心的计算模块之一,在 GM204 这款 GPU 上跑的时候,效率直接摸到了硬件理论峰值的近百分百,软件几乎没浪费一点性能。

更牛的是,这个内核比 NVIDIA 官方闭源的 cuBLAS 库还快,本来想,这可能就是一次 “灵光一现”,结果他又搞出了 maxDNN。

maxDNN 是针对深度学习里的卷积操作做的优化,他把 maxas 那套底层优化的方法搬了过来,用 128 位纹理加载提升读取速度,用双缓冲策略隐藏内存延迟,还重组数据让内存访问更顺畅。

最后,跑出来的结果,在 AlexNet 模型的卷积层上,maxDNN 的效率特别稳定,反观 cuDNN,效率忽高忽低,差了一大截,在 Overfeat 模型的某个卷积层上,maxDNN 的效率更是冲到了一个很高的数值

这一下就证明了,他这套方法不是偶然管用,而是真的能系统性解决问题。


从 Nervana 到 OpenAI,Scott 的角色也跟着变了

在 Nervana 的时候,他更多是优化单个算子的性能,到了 OpenAI,他要解决的是更大的问题 , 模型规模化的瓶颈,当时 OpenAI 提出了 “Scaling Laws”,说模型规模越大,性能越好。

但稠密模型要是一个劲往大了做,计算成本和硬件资源根本扛不住,这样来看,Scott 的工作重心也得跟着调,从 “优化者” 变成了 “赋能者”。

OpenAI 幕后大神 Scott Gray:凭一手 CUDA Kernel 撑起万亿计算

他要做的不再是把单个模块调快,而是开发底层工具,让更高效的稀疏模型架构能跑起来,他和同事一起搞出了块稀疏 GPU 内核,这东西跟之前的非结构化稀疏不一样。

非结构化稀疏是把单个没用的权重删掉,看着参数量少了,但 GPU 计算的时候还是绕不开那些零值,效率没提多少,Scott 的块稀疏是把权重矩阵分成固定大小的块,要是某个块里都是零值,计算的时候就直接 “跳过” 这个块。

OpenAI 幕后大神 Scott Gray:凭一手 CUDA Kernel 撑起万亿计算

他专门为这个写了 GPU 内核,跑起来的速度比处理稠密矩阵的 cuBLAS、处理通用稀疏矩阵的 cuSPARSE 快多了,有了这个技术,OpenAI 的研究员在同样的计算预算下,能做出参数量比以前大很多的模型,比如宽度是普通稠密网络 5 倍的 LSTM 模型。

GPT-3、GPT-4、DALL-E 这些我们现在觉得很牛的模型,背后都有这个技术在撑着,而且 OpenAI 还把这些块稀疏内核开源了,不是自己藏着用。

这一点特别圈粉

他不光自己解决了问题,还把方法分享出去,让整个行业都能跟着进步,现在 GitHub 上那个项目已经有上万星标了,Meta、Anthropic 这些公司都借鉴过他的代码做稀疏模型开发。

从 “优化者” 到 “赋能者”,Scott 为啥是 AI 幕后支柱?现在大家一说起 OpenAI,想到的都是那些露脸的高管和算法专家,但像 Scott 这样在底层默默干活的工程师,其实才是 AI 能跑起来的 “基石”。

没有他写的这些 CUDA Kernel,再牛的算法也只能停在纸面上,就像再好的发动机,没有好的传动系统,也跑不起来,Scott 的经历其实也告诉我们,AI 的进步不是靠某一个环节的突破,而是算法、硬件、软件这些环节都得跟上。

OpenAI 幕后大神 Scott Gray:凭一手 CUDA Kernel 撑起万亿计算

而且,不是只有 “神童” 才能在 AI 圈立足,像他这样深耕一个领域,从底层一点点积累,最后也能成为行业的核心力量。

现在很多人都在讨论 AI 多厉害、多智能,但很少有人关注背后这些啃硬骨。头的工程师,他们不怎么出现在聚光灯下,却用一行行代码撑起了整个 AI 体系

以后 ,AI 要往更大规模、更低成本的方向走,肯定还需要更多像 Scott 这样的人,把底层技术做扎实,毕竟万丈高楼平地起,底层稳了,AI 才能走得更远。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap