阅读此文之前,麻烦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持。本文信源来自权威报道:【中工网、大象新闻、环球...
2025-10-01 1
9月30日,国产大模型初创公司智谱发布GLM-4.6新模型。作为GLM系列最新版本,GLM-4.6在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面能力有所提升。
官方信息显示,此次升级表现在公开基准与真实编程任务中,GLM-4.6代码能力对齐Claude Sonnet 4;上下文窗口由128K提升至200K,适应更长的代码和智能体任务;新模型提升推理能力,并支持在推理过程中调用工具;搜索方面增强模型的工具调用和搜索智能体。
另外,“模芯联动”是此次新模型发布的重点,GLM-4.6已在寒武纪国产芯片上实现FP8+Int4混合量化部署,这也是行业首次在国产芯片上投产的FP8+Int4模型芯片一体解决方案,在保持精度不变的前提下,降低推理成本,为国产芯片在大模型本地化运行上探索可行路径。
FP8是8 位浮点数(Floating-Point 8)数据类型,动态范围广、精度损失小;Int4是4 位整数(Integer 4)数据类型,压缩比极高,内存占用最少,适配低算力硬件但精度损失相对明显。此次尝试的“FP8+Int4 混合” 模式,并非简单将两种格式叠加,而是根据大模型的“模块功能差异”,针对性分配量化格式,让该省内存的地方用Int4压到极致,该保精度的地方用FP8守住底线,实现合理资源分配。
具体到模型适配过程中,占总内存的60%-80%的大模型核心参数通过Int4量化后,可将权重体积直接压缩为FP16的1/4,大幅降低芯片显存的占用压力;推理环节积累的临时对话数据可以通过Int4压缩内存的同时,将精度损失控制在 “轻微”范围。而FP8可重点针对模型中“数值敏感、影响推理准确性”的模块,降低精度损失、保留精细语义信息。
除了寒武纪,据记者了解,摩尔线程已基于vLLM推理框架完成对GLM-4.6 的适配,新一代GPU可在原生FP8精度下稳定运行模型,验证MUSA架构及全功能GPU在生态兼容性和快速适配能力方面的优势。
寒武纪与摩尔线程此番完成对GLM-4.6的适配,标志着国产GPU已具备与前沿大模型协同迭代的能力,加速构建自主可控的 AI 技术生态。接下来,GLM-4.6搭配国产芯片的组合将率先通过智谱MaaS平台面向企业与公众提供服务。
(本文来自第一财经)
相关文章
阅读此文之前,麻烦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持。本文信源来自权威报道:【中工网、大象新闻、环球...
2025-10-01 1
9月30日,国产大模型初创公司智谱发布GLM-4.6新模型。作为GLM系列最新版本,GLM-4.6在真实编程、长上下文处理、推理能力、信息搜索、写作能...
2025-10-01 1
文|摩根商研所地图导航这个行业,有那么些“奇怪”。论流量,它是妥妥的互联网APP日活前几,论占有率,几乎人手一个地图APP。但论需求,大多数人除了导航...
2025-10-01 1
IT之家 10 月 1 日消息,美国联邦通信委员会(FCC)似乎已证实苹果公司正在研发 Vision Pro 头显的新版本。FCC 今日公布的多份文件...
2025-10-01 1
近日,有网友发帖称,山姆一款售价99.9元的商品BALANCE.TT KETO“牛肉+再制奶酪”,在好特卖超市门店售价仅为39.9元,引发关注。目前,...
2025-10-01 1
记者获悉,中国南方航空计划在10月4日至8日19:00-次日00:00期间执飞400余条赏月航线,航班量超2800班次,在10月6日中秋夜19:00至...
2025-10-01 1
本报杭州9月29日电 (记者窦瀚洋、窦皓 9月29日,第四届全球数字贸易博览会(以下简称“数贸会” 在浙江杭州闭幕。记者从数贸会成果发布会现场了解到:...
2025-10-01 1
发表评论