首页 景点排名文章正文

死磕存算一体,后摩智能发布重磅新品

景点排名 2025年07月27日 13:10 0 admin

过去很长的一段时间里,冯诺依曼架构的芯片统治了整个处理器江湖。但其实进入最近几年,所谓冯诺依曼瓶颈逐渐引起了大家的注意。特别是在人工智能和大模型到来了以后,这个矛盾越来越突出。

换而言之,在这类传统芯片上,如果想要同时获得高算力、高带宽和低功耗是一项很艰难的任务。但在后摩智能创始人兼CEO 吴强博士看来,存算一体技术会是同时实现这三个看似互斥指标的最好方案。因为存算一体通过把计算和存储单元集成在一起,让数据就近处理,从根本上解决了传统芯片“数据传输慢、功耗高”的问题。

“用存算一体技术去做AI、做大模型,拥有很大的优势。”吴强博士说。

死磕存算一体,后摩智能发布重磅新品

死磕存算一体背后

其实存算一体并不是新技术,过去有不少研究机构甚至企业在这项技术上有了很深刻的研究。但如果要谈到真正商用,似乎只有近年来才开始有些试水。在问到为何一项看起来很好的技术,却并没有成为主流的时候。吴强博士回应到,这主要由以下几方面的原因造成的:

首先,学术界的文章里记录的只是理论,但怎么把其用起来,将其推向量产,这是在学术文章里看不到的;其次,怎样通过软件把存算一体芯片用起来,同时给开发者提供类似传统芯片的开发体验,这是给存算芯片开发商提出的另一个考验。

正是因为上述原因,拦住了不少想涉足这个技术的企业。而后摩智能的团队基于自身的研究和积累,义无反顾地投入到这条前景光明的芯片赛道。

据吴强博士介绍,当时选择存算一体,主要出于两个朴素原因:一是他当时聚焦高能效比计算芯片以及编译器的论文研究方向,让他知道如果要真的解决功耗强墙和存储墙的问题,就必须走存算一体的路线;二是公司创业之初,面临着英伟达这样的国际巨头,如果想跟他们竞争,就需要一些比较创新的架构才有可能另辟蹊径弯道超车。、

“基于这两点考虑,后摩智能选择了当时看起来冷门的存算一体的技术路线,并默默耕耘了四年多。”吴强博士告诉半导体行业观察。

他进一步指出,在深耕存算一体的这些年,大模型的到来,让后摩智能团队对存算一体技术的发展有了更深层次的思考。如他所说,在AI大模型的应用中,既需要算力密集,又需要带宽密集,而这恰好正是存算一体技术所擅长的。

在意识到这一点以后,后摩智能的团队从2023年开始,就开始投入大量的精力去钻研大模型和存算一体的结合,公司也投入很多资源对架构、设计和量化进行深入的研究。与此同时,公司也开始了新一轮的战略审视和思考。最后,后摩智能的团队决定,未来将聚焦在端边大模型AI计算,让存算和大模型形成共振,释放更大的势能。

做出这个决定后,后摩智能团队全身心投入到研发中去,并最终在今日带来了新的研究成果——全新的端边大模型AI芯片后摩漫界M50。

芯片很小,能量很大

“这是当前市场上能效比最高的端边大模型AI芯片”,在介绍“漫界M50”的时候,吴强如是说。

作为后摩智能存算一体技术的集大成之作,“漫界M50”基于公司第二代SRAM-CIM双端口存算架构打造,能让权重加载和矩阵计算同时进行,并支持多精度混合运算,可兼顾模型部署的各项需求;集成的自主研发的第二代 IPU 架构——天璇,则能通过压缩自适应计算周期实现弹性计算(Elastic Computing),能最高可提供 160% 的加速效果;此外,通过内建的高速多芯互联技术,可实现算力与带宽扩展。而在适配后摩智能新一代编译器后摩大道之后,可根据芯片架构自动选择最优算子,无需开发者手动尝试;这个芯片的另一个特点是支持浮点运算,无需量化参数和精度调优。

吴强博士表示,这个芯片看起来很小,功耗很低,但是能量很大,能满足各种各样的消费终端需求。

死磕存算一体,后摩智能发布重磅新品

从后摩智能提供的数据我们可以看到,M50 芯片实现了160TOPS@INT8、100TFLOPS@bFP16 的物理算力,搭配最大 48GB 内存与153.6 GB/s 的超高带宽,但其典型功耗仅 10W,相当于手机快充的功率,就能让PC、智能语音设备、机器人等智能移动终端高效运行1.5B 到 70B 参数的本地大模型,真正实现了高算力、低功耗和即插即用。

“和传统架构相比,M50 的能效提升 5~10 倍,完美适配了端边设备‘算得快又吃得少’的需求”,后摩智能进一步指出。

在谈到如何能在如此小的一个芯片上获得这样的成就时,吴强博士表示,这是公司研发团队将目光聚焦在存算IP和AI处理器IPU这两个核心上一点点打磨出来的。“在打磨出好硬件以后,还需要一个好的编译器工具链去把它的能力充分发挥出来。”吴强博士接着说。

M50上配备的是新一代编译器工具链——后摩大道,正是后摩智能为实现这个目标推出的又一力作。

据介绍,这是一个新的重构编译器,具备灵活易用、便捷上手等特点。与之前的编译器相比。后摩大道最大的改变是它的算子(细颗粒的算子支持)非常灵活。面对复杂的算子,这个编译器还能通过自动的方式把Flash Chain拆分,并做自动化的算子的分配,进一步降低开发者的入门门槛。

此外,后摩大道还支持自动优化算子和原生浮点(算力),这您一步给开发者带来了便利。

丰富的产品矩阵

除了“漫界M50”外,后摩智能同时还带来了面向终端的“力擎”系列、小巧的“力擎”系列M.2或者DUO M.2卡。针对边缘侧的半高半长的加速卡和全高全长加速卡以及计算盒子等一系列集成“漫界M50”芯片的丰富产品矩阵。

借助这些多元算力方案,后摩智能希望能为端侧到边缘的应用提供全方位的支持。

其中,力擎™ LQ50 M.2 卡以口香糖大小的标准 M.2 规格,为 AI PC、AI Stick、陪伴机器人等移动终端提供 "即插即用" 的端侧 AI 能力,支持 7B/8B 模型推理超 25tokens/s;

力擎™ LQ50 Duo M.2 卡集成双 M50 芯片,以 320TOPS 算力突破 14B/32B 大模型端侧部署瓶颈;

力谋®LM5050 加速卡与力谋®LM5070 加速卡分别集成 2 颗、4 颗 M50 芯片,为单机及超大模型推理提供高密度算力,最高达 640TOPS;

BX50 计算盒子则以紧凑机身适配边缘场景,支持 32 路视频分析与本地大模型运行。

死磕存算一体,后摩智能发布重磅新品

在后摩智能看来。这些产品可广泛应用于消费终端、智能办公、智能工业等多元领域,且均能在离线状态下实现全流程本地处理,从源头杜绝数据联网传输风险。

例如在消费终端,赋能笔记本、平板电脑、学习机等设备本地大模型推理能力,无需联网即可完成智能交互、内容生成等任务,用户隐私数据全程闭环留存;智能办公场景中,智能会议系统在断网环境下仍能实现多语种翻译、纪要生成,会议内容不触云、不泄露;智能工业领域,产线质检与车路云协同通过本地算力完成实时分析决策,生产数据与运营信息在设备端闭环处理,避免云端传输隐患。

后摩智能强调。公司通过存算一体技术与大模型的深度融合,推动 AI 大模型在端边侧实现 “离线可用、数据留痕不外露”,构建起 “低功耗、高安全、好体验” 的端边智能新生态。

写在最后

吴强博士告诉半导体行业观察,在端边大模型方面耕耘两年后,后摩智能已经将“成为端边大模型AI芯片” 领跑者作为公司奋斗的目标。后摩智能的使命和愿景也是希望用创新技术实现极致效率的芯片。

朝着这个目标,吴强透露,后摩智能已启动下一代 DRAM-PIM 技术研发,通过将计算单元直接嵌入 DRAM 阵列,使计算与存储的协同更加紧密高效。该技术将突破 1TB/s 片内带宽,能效较现有水平再提升三倍,推动百亿参数大模型在终端设备实现普及,让更强大的 AI 算力能够融入 PC、平板等日常设备中。

“我们希望用领先的存算一体的技术,用领先的芯片,去打造一个‘低功耗、高安全、好体验’的端边智能新生态。我们希望有一天大模型走出云端,真正走入千家百户,真正的赋能千行百业。”吴强博士说。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap