【亿邦原创】8月6日,支付宝联合分众传媒在上海举行“一碰即发”发布会,公布一个创新性的碰一下生态——电梯场景“碰一下,抢红包”。简单来说,就是支付宝在...
2025-08-08 0
2025年8月6日,Ollama发布了v0.11.2版本更新。本次版本主要针对之前引入的OpenAI全新gpt-oss模型进行细节修复,并持续优化kv缓存的量化机制。此次更新不仅增强了模型的稳定性,也保证了量化模型在推理时的性能表现,展现了Ollama在结合开源与前沿AI技术上的持续深度投入。
本文将围绕v0.11.2版本的更新内容进行详细解析,结合v0.11.0版本中首次引入的gpt-oss模型,系统介绍版本迭代的背景、技术细节、功能优化及实际应用价值,帮助读者全面理解Ollama在本次更新中的技术创新与改进点。
2025年8月6日,Ollama首次发布v0.11.0版本,正式引入OpenAI的gpt-oss模型(20B和120B两款),这标志着Ollama迈入了开放权重、超大模型的本地化聊天新时代。
• 模型规模与性能: 20B和120B两款模型覆盖多场景应用,带来了更强的推理能力和多任务处理能力;
• 全新功能特性:
• 开源许可:采用宽松的Apache 2.0许可证,降低试验和商用风险;
• 量化技术创新:采用MXFP4格式对MoE(Mixture-of-Experts)权重进行4.25位参数精度量化,大幅缩减显存占用。
MXFP4量化的引入,为超大规模模型的本地部署打开了新可能。即使是16GB显存的中端GPU亦可运行20B模型,而单卡80GB GPU能够轻松支持120B规模。
在v0.11.0版本发布后,部分用户反馈在使用gpt-oss模型时遇到了kv缓存量化相关的稳定性问题和运行时异常。为了保障模型推理的稳定性和用户体验,v0.11.2针对以下问题进行重点改进:
• 修复kv缓存量化导致的崩溃问题;
• 纠正gpt-oss中“currentDate”未定义的运行错误;
• 禁止在gpt-oss模型架构下启用kv缓存量化,避免潜在风险。
kv缓存(Key-Value Cache)是Transformer类语言模型推理时的重要优化,用于加速后续token的推理计算。kv缓存量化意在进一步节省内存和计算资源。
在v0.11.2中,修复了kv缓存量化在gpt-oss架构下造成的崩溃问题。具体做法是在底层GGML模块中添加保护逻辑:
if f.KV().Architecture() == "gptoss" { return false}
针对gpt-oss模型明确定义不允许启用kv缓存的量化功能,避免了这部分代码执行时出现异常崩溃,大幅提升系统稳定度。
此改动体现了工程实践中“针对不同模型架构定制优化”的细粒度策略,对于大规模复杂模型尤其重要。
部分用户反馈在调用API接口时遇到“currentDate未定义”错误导致程序异常中断。v0.11.2版本通过补齐变量定义和正确初始化,避免此类运行时错误,确保模型调用流程更加顺畅和鲁棒。
• kv缓存在无法寻找有效插槽时,将日志输出缓存的当前内容,方便后续排查;
• 允许SWA(滑动平均权重)机制保存更多附加缓存条目的支持,实现缓存管理上的灵活性和扩展性。
MXFP4是OpenAI针对混合专家模型(MoE)权重提出的专用量化格式,核心特点:
• 采用4.25bit平均编码,结合混合精度策略;
• 针对MoE权重的特殊稀疏结构进行优化编码,减少冗余;
• 兼具推理效率和精度维护能力;
通过MXFP4量化,模型参数体积大幅缩减,有效解决了超大模型在通用硬件上的部署瓶颈。
Ollama在v0.11版本中引入了全新内核支持,能够本地原生解析MXFP4格式模型权重,且无需额外转换和二次量化。
优势体现在:
• 无缝兼容:直接加载OpenAI发布的gpt-oss权重;
• 性能保证:内核经过专门优化,满足高吞吐和低时延需求;
• 质量一致:与OpenAI官方参考实现达到等效推理结果和输出质量。
尽管量化带来诸多好处,但在特定架构(如gpt-oss)上,kv缓存的量化可能导致运行时内存错乱或数据不一致。v0.11.2版本选择禁止该模型启用kv缓存量化,取稳避免潜在崩溃。
这一调整体现了量化技术从实验室走向工业级应用时的谨慎态度——性能与稳定性需兼顾。
• 本地存储,无需联网,确保数据隐私安全;
• 快速响应时延,相比云端服务效率大幅提升;
• 灵活调用工具链,支持函数调用、插件扩展等复杂用例。
原生支持:
• 函数调用API接口,轻松集成外部服务;
• 内置网页搜索功能,可选启用实时信息补充;
• Python代码执行能力,便于开发动态逻辑和应用扩展;
• 结构化输出方便下游数据处理和分析。
• 低至高的推理强度调节,帮助用户根据场景自定义性能指标;
• 针对特定业务或数据微调参数,提升模型效果与准确度;
• 开源许可证支持自由研究和商业部署。
#下载安装最新0.11.2版本# 请访问官网或通过包管理工具更新
ollama run gpt-oss:20bollama run gpt-oss:120b
可根据需求启用或关闭web搜索、函数调用等:
# 启用web搜索示例ollama run gpt-oss:20b --enable-web-search
在调试时,可开启kv缓存日志查看,方便定位性能瓶颈及错误。
Ollama v0.11.2版本通过针对gpt-oss模型的深度问题修复和底层机制优化,保证了超大规模开源模型在本地的稳定、高效运行。借助创新的MXFP4量化技术和功能丰富的agentic接口,Ollama不断推动本地化大模型的应用边界,为开发者和企业用户带来了更强大的自主AI能力。
更新内容 | 说明 |
禁用gpt-oss模型的kv缓存量化 | 避免因量化带来的缓存崩溃,提升模型稳定性 |
修复currentDate未定义错误 | 增强代码健壮性,确保调用流程无异常 |
增强kv缓存日志机制 | 提供更详细的运行时缓存状态日志,有助于问题排查 |
支持MXFP4格式量化权重 | 低位宽量化提升内存利用率,适应16GB及以上硬件环境 |
agentic原生能力集成 | 实现函数调用、网页搜索、Python工具等多样化本地化AI工作流 |
通过阅读本文,您应对Ollama v0.11.2版本的核心改进和gpt-oss模型支持有了全方位的理解。期待您在此次更新的技术基础上,能更高效地部署和开发符合业务需求的智能应用。如有更多问题,欢迎关注CSDN社区,共享AI技术前沿动态。
·
我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。
欢迎关注“福大大架构师每日一题”,让AI助力您的未来发展。
·
相关文章
【亿邦原创】8月6日,支付宝联合分众传媒在上海举行“一碰即发”发布会,公布一个创新性的碰一下生态——电梯场景“碰一下,抢红包”。简单来说,就是支付宝在...
2025-08-08 0
一、前言2025年8月6日,Ollama发布了v0.11.2版本更新。本次版本主要针对之前引入的OpenAI全新gpt-oss模型进行细节修复,并持续...
2025-08-08 0
今年以来截止8月1号,二连浩特口岸已审放的跨境电商货物突破60万单,达到 61.6 万单,货值突破7000万元大关,达7165.65 万元。8月1号,...
2025-08-08 0
金融界2025年8月8日消息,国家知识产权局信息显示,江苏健龙电器有限公司申请一项名为“一种自动插接式船用充电车”的专利,公开号CN120439837...
2025-08-08 0
当涡扇发动机叶片呼啸旋转,肉眼所见只剩一片模糊的残影,普通相机根本来不及捕捉这转瞬即逝的动态。而在南京理工大学智能计算成像实验室内,陈钱、左超教授团队...
2025-08-08 0
8月4日,海信集团发布2024年度ESG报告,这是海信集团连续第三年发布ESG报告,AI成为推动ESG落地的重要关键词。海信集团董事长、ESG委员会主...
2025-08-08 1
在刚刚过去的2025世界人工智能大会(WAIC)上,具身智能无疑是最令人瞩目的行业。一年前的大会上,机器人组成的“十八罗汉”列阵“迎宾”,彼时,机器人...
2025-08-08 0
近日,石家庄市"科创赋能县域行"活动(深泽站)在深泽县举办。活动由市科技局与深泽县政府主办,深泽县科工局承办,旨在促进政产学研融合,推动县域特色产业升...
2025-08-08 1
发表评论