打破英伟达依赖！中科院新模型提速100倍，AI底层架构或将巨变

排行榜 2025年09月24日 20:35 1 aa

让AI分析一份百万字的法律卷宗，传统大模型得等半天才能出结果，想训练个大模型，还得先囤一批英伟达显卡这两件头疼事，最近被中科院的新成果破解了。

他们团队刚公布的类脑大模型SpikingBrain（瞬悉1.0），不仅能把超长文本处理速度提快100倍，更关键的是，整个训练过程没碰英伟达GPU，全靠国产MetaX显卡撑了起来。

760亿参数的规模，在国产硬件上稳稳跑通，这在行业里还是头一回。

这事儿可不只是技术圈的小突破。它意味着咱们的大模型发展，不用再被别人的硬件卡脖子，连能耗、效率这些老难题，也找到了解决的新方向。

大模型的两大死穴，终于有了破解思路

现在咱们用的大模型，基本都绕不开两个坎，一个是“长文本恐惧症”，文本一超过几万字，计算量就跟着平方级往上翻，AI处理起来又慢又卡，百万字的学术论文、法律文档根本没法高效分析。

另一个更要命，就是“英伟达依赖症”，从训练到推理，几乎全得靠英伟达的GPU和它的CUDA软件栈。不是不想用别的，是换成其他硬件，要么跑不起来，要么效率低到没法看。

硬件自主化成了行业里悬了好几年的难题。

这些年业界也没闲着，混合架构、稀疏专家、类脑计算都试过，但大多停留在几十万、几百万参数的小模型阶段，真要放大到几十亿、上百亿参数，要么性能崩了，要么直接跑不起来。

中科院这次的突破，刚好踩中了这两个痛点，他们的SpikingBrain模型，直接把超长文本处理做成了强项，还彻底摆脱了对英伟达硬件的依赖，说这话有实打实的数据撑着。

拿70亿参数的SpikingBrain-7B来说，输入400万token的文本大概相当于20本长篇小说的量，它生成第一个答案的时间，比传统大模型快了100倍。

以前等10分钟的活儿，现在1分钟不到就能出结果。

更省资源的是它的“工作模式”模型里的脉冲神经元（spiking神经元）像打工人一样，没事就“摸鱼”，只有处理关键信息时才“上班放电”。

数据显示，推理过程中69.15%的神经元都是静默状态，无效计算直接省了一大半，能耗自然降了不少。

训练数据量也刷新了认知，整个模型只用了1500亿token的素材，这大概只相当于主流大模型的2%。即便如此，在语言理解、常识推理这些测试里，它的表现还能跟传统大模型掰掰手腕，部分任务甚至能追平。

国产GPU挑大梁，背后是三年磨一剑的优化

最让人振奋的，是撑起这一切的硬件国产沐曦MetaXC550GPU集群。

要知道，760亿参数的大模型，对硬件的算力、稳定性要求极高，以前从没在非英伟达平台上成功训练过这么大规模的类脑模型。

中科院团队跟沐曦合作，等于从零开始搭了一套全新的系统，国产GPU的软件生态本来就不如英伟达成熟，很多关键的计算工具、通信机制都得自己造。

他们先是把模型的“基础零件”换了一遍，把传统大模型里的全连接注意力，改成了线性注意力和混合注意力，这一下就从根上解决了长文本计算量暴涨的问题，文本越长，效率优势越明显。

接着又给模型装了“类脑开关”，引入的脉冲神经元能根据输入内容动态激活，不需要处理信息时就保持静默，这种天然的稀疏性，刚好适配了国产GPU的特性，把硬件性能发挥到了极致。

70亿参数的模型在MetaX上，浮点运算利用率达到了23.4%，这个数据在非英伟达平台上已经相当能打。

底层系统的优化更费功夫，团队重写了核心的算子库，相当于给GPU定制了一套专用工具；改造了分布式通信机制，让几百张显卡能协同工作不“掉链子”。

还专门设计了方案解决长时间训练里常见的内存溢出、死锁问题。

就这么一点点磨，先是在几百张MetaXGPU上稳住了70亿参数的训练，接着又顺利扩展到760亿参数，还加了稀疏专家机制提升性能。

整个过程跑了数周，没出一次大故障，这本身就是对国产硬件实力的最好证明。

不只是一个模型，更是一条新赛道的起点

可能有人会问，这模型能取代现在的GPT、Gemini吗？短期来看还不行，它更像是给行业提供了一个全新的样本，证明大模型的发展不止一条路。

它的价值，首先是打破了“Transformer+英伟达”的垄断，以前大家觉得，搞大模型就得按这一套来，现在中科院用实际成果说明，类脑架构+国产GPU的组合照样能成大事。

这一下就给行业松了绑，小公司不用再花大价钱囤英伟达显卡，国产硬件厂商也有了更多发力的空间。

其次是打开了超长序列任务的大门，法律文档分析、DNA序列解读、高能粒子物理实验数据处理，这些以前因为文本太长被大模型拒之门外的领域，现在有了新工具。

比如医院里动辄几十万字的病历数据，用这个模型分析，效率能翻几十倍。

能耗问题的解决更具现实意义，传统大模型训练一次要耗费几万度电，很多中小企业根本扛不住。

SpikingBrain的稀疏激活机制能大幅降低能耗，这意味着大模型的使用成本会往下走，普通人、小团队也能用上高性能AI。

中科院自动化研究所的李国齐研究员说，这是我国首次提出大规模类脑线性基础模型架构，也是第一次在国产GPU上搭起类脑大模型的训练框架。

这背后是“基于内生复杂性”的新思路不靠堆数据、堆算力，而是靠优化模型结构提升智能，这可能就是未来大模型的进化方向之一。

当然，这条路还要走很久，模型能不能在更复杂的任务里保持稳定？

类脑机制能不能发展成成熟的工具链？国产硬件的生态能不能跟上？这些都需要时间来回答，但至少现在，我们已经看到了曙光。

以前提起大模型，大家总在问“什么时候能赶上GPT”，现在中科院的突破告诉我们，不一定非要跟着别人的脚印走。

换个思路，用类脑架构搭骨架，用国产硬件做地基，说不定能走出一条更适合我们自己的路。

从几百张国产GPU稳稳运行的76B模型，到快100倍的长文本处理速度，再到更低的能耗，这些突破拼凑起来的，是大模型自主发展的新可能。

或许用不了多久，我们刷到的AI分析、用到的智能工具，背后就会是国产硬件和类脑模型在支撑，这一天，现在看起来离我们越来越近了。

这篇文章围绕类脑大模型的突破价值展开，所有数据均来自中科院官方披露及权威媒体报道。

你若想补充国产GPU的具体性能参数，或了解类脑模型在医疗、法律领域的落地案例，欢迎随时告诉我。

美国是明显卷不过中国了，美高层：美国AI技术比中国领先3到6个月

别死磕产品功能了！90% 企业栽在 “隐性需求” 上，AI 一招精准破局

发表评论