首页 排行榜文章正文

打破英伟达依赖!中科院新模型提速100倍,AI底层架构或将巨变

排行榜 2025年09月24日 20:35 1 aa

让AI分析一份百万字的法律卷宗,传统大模型得等半天才能出结果,想训练个大模型,还得先囤一批英伟达显卡这两件头疼事,最近被中科院的新成果破解了。

他们团队刚公布的类脑大模型SpikingBrain(瞬悉1.0),不仅能把超长文本处理速度提快100倍,更关键的是,整个训练过程没碰英伟达GPU,全靠国产MetaX显卡撑了起来。

760亿参数的规模,在国产硬件上稳稳跑通,这在行业里还是头一回。

这事儿可不只是技术圈的小突破。它意味着咱们的大模型发展,不用再被别人的硬件卡脖子,连能耗、效率这些老难题,也找到了解决的新方向。

打破英伟达依赖!中科院新模型提速100倍,AI底层架构或将巨变

大模型的两大死穴,终于有了破解思路

现在咱们用的大模型,基本都绕不开两个坎,一个是“长文本恐惧症”,文本一超过几万字,计算量就跟着平方级往上翻,AI处理起来又慢又卡,百万字的学术论文、法律文档根本没法高效分析。

另一个更要命,就是“英伟达依赖症”,从训练到推理,几乎全得靠英伟达的GPU和它的CUDA软件栈。不是不想用别的,是换成其他硬件,要么跑不起来,要么效率低到没法看。

硬件自主化成了行业里悬了好几年的难题。

这些年业界也没闲着,混合架构、稀疏专家、类脑计算都试过,但大多停留在几十万、几百万参数的小模型阶段,真要放大到几十亿、上百亿参数,要么性能崩了,要么直接跑不起来。

打破英伟达依赖!中科院新模型提速100倍,AI底层架构或将巨变

中科院这次的突破,刚好踩中了这两个痛点,他们的SpikingBrain模型,直接把超长文本处理做成了强项,还彻底摆脱了对英伟达硬件的依赖,说这话有实打实的数据撑着。

拿70亿参数的SpikingBrain-7B来说,输入400万token的文本大概相当于20本长篇小说的量,它生成第一个答案的时间,比传统大模型快了100倍。

以前等10分钟的活儿,现在1分钟不到就能出结果。

更省资源的是它的“工作模式”模型里的脉冲神经元(spiking神经元)像打工人一样,没事就“摸鱼”,只有处理关键信息时才“上班放电”。

数据显示,推理过程中69.15%的神经元都是静默状态,无效计算直接省了一大半,能耗自然降了不少。

训练数据量也刷新了认知,整个模型只用了1500亿token的素材,这大概只相当于主流大模型的2%。即便如此,在语言理解、常识推理这些测试里,它的表现还能跟传统大模型掰掰手腕,部分任务甚至能追平。

打破英伟达依赖!中科院新模型提速100倍,AI底层架构或将巨变

国产GPU挑大梁,背后是三年磨一剑的优化

最让人振奋的,是撑起这一切的硬件国产沐曦MetaXC550GPU集群。

要知道,760亿参数的大模型,对硬件的算力、稳定性要求极高,以前从没在非英伟达平台上成功训练过这么大规模的类脑模型。

中科院团队跟沐曦合作,等于从零开始搭了一套全新的系统,国产GPU的软件生态本来就不如英伟达成熟,很多关键的计算工具、通信机制都得自己造。

他们先是把模型的“基础零件”换了一遍,把传统大模型里的全连接注意力,改成了线性注意力和混合注意力,这一下就从根上解决了长文本计算量暴涨的问题,文本越长,效率优势越明显。

打破英伟达依赖!中科院新模型提速100倍,AI底层架构或将巨变

接着又给模型装了“类脑开关”,引入的脉冲神经元能根据输入内容动态激活,不需要处理信息时就保持静默,这种天然的稀疏性,刚好适配了国产GPU的特性,把硬件性能发挥到了极致。

70亿参数的模型在MetaX上,浮点运算利用率达到了23.4%,这个数据在非英伟达平台上已经相当能打。

底层系统的优化更费功夫,团队重写了核心的算子库,相当于给GPU定制了一套专用工具;改造了分布式通信机制,让几百张显卡能协同工作不“掉链子”。

还专门设计了方案解决长时间训练里常见的内存溢出、死锁问题。

就这么一点点磨,先是在几百张MetaXGPU上稳住了70亿参数的训练,接着又顺利扩展到760亿参数,还加了稀疏专家机制提升性能。

整个过程跑了数周,没出一次大故障,这本身就是对国产硬件实力的最好证明。

打破英伟达依赖!中科院新模型提速100倍,AI底层架构或将巨变

不只是一个模型,更是一条新赛道的起点

可能有人会问,这模型能取代现在的GPT、Gemini吗?短期来看还不行,它更像是给行业提供了一个全新的样本,证明大模型的发展不止一条路。

它的价值,首先是打破了“Transformer+英伟达”的垄断,以前大家觉得,搞大模型就得按这一套来,现在中科院用实际成果说明,类脑架构+国产GPU的组合照样能成大事。

这一下就给行业松了绑,小公司不用再花大价钱囤英伟达显卡,国产硬件厂商也有了更多发力的空间。

其次是打开了超长序列任务的大门,法律文档分析、DNA序列解读、高能粒子物理实验数据处理,这些以前因为文本太长被大模型拒之门外的领域,现在有了新工具。

比如医院里动辄几十万字的病历数据,用这个模型分析,效率能翻几十倍。

能耗问题的解决更具现实意义,传统大模型训练一次要耗费几万度电,很多中小企业根本扛不住。

SpikingBrain的稀疏激活机制能大幅降低能耗,这意味着大模型的使用成本会往下走,普通人、小团队也能用上高性能AI。

打破英伟达依赖!中科院新模型提速100倍,AI底层架构或将巨变

中科院自动化研究所的李国齐研究员说,这是我国首次提出大规模类脑线性基础模型架构,也是第一次在国产GPU上搭起类脑大模型的训练框架。

这背后是“基于内生复杂性”的新思路不靠堆数据、堆算力,而是靠优化模型结构提升智能,这可能就是未来大模型的进化方向之一。

当然,这条路还要走很久,模型能不能在更复杂的任务里保持稳定?

类脑机制能不能发展成成熟的工具链?国产硬件的生态能不能跟上?这些都需要时间来回答,但至少现在,我们已经看到了曙光。

以前提起大模型,大家总在问“什么时候能赶上GPT”,现在中科院的突破告诉我们,不一定非要跟着别人的脚印走。

换个思路,用类脑架构搭骨架,用国产硬件做地基,说不定能走出一条更适合我们自己的路。

从几百张国产GPU稳稳运行的76B模型,到快100倍的长文本处理速度,再到更低的能耗,这些突破拼凑起来的,是大模型自主发展的新可能。

打破英伟达依赖!中科院新模型提速100倍,AI底层架构或将巨变

或许用不了多久,我们刷到的AI分析、用到的智能工具,背后就会是国产硬件和类脑模型在支撑,这一天,现在看起来离我们越来越近了。

这篇文章围绕类脑大模型的突破价值展开,所有数据均来自中科院官方披露及权威媒体报道。

你若想补充国产GPU的具体性能参数,或了解类脑模型在医疗、法律领域的落地案例,欢迎随时告诉我。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap