ollama v0.12.5 发布，新增功能与重要改进详解

抖音热门 2025年10月16日 00:33 1 admin

发布时间：2025年10月11日

在 v0.12.5 版本中，Ollama 带来了多项功能改进、问题修复及平台兼容性调整。本次更新主要涉及运行流程优化、错误处理改进、模型输出优化以及平台支持范围调整。以下是详细解析。

一、主要更新内容

1. 应用启动等待机制优化
Ollama 的应用在启动对话前，将等待 Ollama 服务运行完成，避免了在服务尚未启动的情况下进行会话操作。

2. Think 参数兼容性改进
修复了在 "think": false 时，以前会出现错误提示的问题，现版本将改为静默忽略，提升了非思考模型的兼容性。

3. 模型输出问题修复
修正了 deepseek-r1 模型的输出异常问题，提升了生成结果的稳定性。

4. 平台支持变更

• macOS 12 Monterey 与 macOS 13 Ventura 不再支持。

• AMD gfx900 和 gfx906 系列 GPU（如 MI50、MI60）不再通过 ROCm 支持，未来将尝试通过 Vulkan 提供支持。

二、代码层面变更解析

1. 内置函数 min/max 应用

在多个图像处理模块中，替换了 math.Min、math.Max 为 Go 语言的内置 min()、max() 方法：

• llama4 及 mllama 模型的 process_image.go 调整了分辨率计算方法，提升了代码简洁性与性能。

2. 运行时度量优化

• llamarunner 与 ollamarunner 都引入了新的运行时间度量方式，将处理阶段与生成阶段拆分，对处理耗时和生成耗时进行单独统计。

• 新增了 processingDuration 与 generationDuration/samplingDuration 变量，用于区分不同阶段的运行时间。

• 在批量处理过程中，增加了 startedAt、lastUpdatedAt 的记录，以便更精准地分析性能数据。

3. 批量处理与异步支持调整

• 在 ollamarunner 中，批量处理逻辑修改为使用 previousBatch 和 nextBatch 交替进行。

• 当模型支持异步运算时（pooling_type == none），批处理计算会并行执行，提升模型运行效率。

4. Thinking 能力判断优化

• 在 server/routes.go 中，GenerateHandler 和 ChatHandler 的逻辑调整为：

• 如果模型支持 thinking，则默认开启；
• 如果模型不支持 thinking 且用户设置了 true，将返回错误；
• 如果设置为 false，则不报错，正常执行。

三、测试用例改动

在 server/routes_generate_test.go 中：

• 错误提示信息调整为更简洁的 "\"test\" does not support thinking"。

• 新增测试用例，验证模型不支持 thinking 且 think=false 时的执行结果，确保返回状态码 200。

四、版本影响与展望

本次 ollama v0.12.5 更新在性能优化、运行时度量、错误处理等方面都有显著提升，尤其是：

• 提升模型执行阶段的时间统计精度

• 改善非思考模型的兼容性

• 优化批处理执行流程

我们相信人工智能为普通人提供了一种“增强工具”，并致力于分享全方位的AI知识。在这里，您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。

欢迎关注“福大大架构师每日一题”，发消息可获得面试资料，让AI助力您的未来发展。

编码新未来！WAVE2025泛互全球领航者大会即将启幕

英伟达携手三星晶圆厂开展定制芯片制造合作

发表评论