开源跨平台大模型工具 Ollama 发布 0.11.9-rc0 测试版

ollama 团队近日发布了 0.11.9-rc0 测试版，重点提升了 CPU/GPU 并行性能。此次更新引入了新的执行机制，让 GPU 在处理当前批次任务的同时，CPU 可以并行准备下一批计算，从而减少 GPU 空闲等待时间，旨在提升其在多平台运行 AI 大语言模型时的整体性能。

在实测中，macOS Metal 环境下 token 处理速度提升约 2–3%，而在 GeForce RTX 4090 上提升幅度约 7%。

此外，新版本还修复了 AMD GPU 无法识别的问题，并解决了 macOS 与 Linux 上因未处理错误导致的部分崩溃情况，进一步提升了跨平台稳定性与兼容性。这意味着 ollama 在运行大语言模型时将具备更高的效率和更稳定的表现。

关键性能优化

引入一种新的执行方式：通过在后台并行构建下一批次的计算图，将 GPU 与 CPU 的计算任务重叠执行。这能有效减少 GPU 等待下一批任务所造成的空闲时间，提升吞吐效率。

该改动由 VMware 工程师 Daniel Hiltgen 提出，他在 Pull Request 中指出：

“这重构了 ollama 主运行循环，将主要 GPU 密集任务（Compute+Floats）放在 Go 协程中执行，从而可以并行准备下一批任务，减少 GPU 在等待时的停顿。”
“在 metal（macOS 上）测试中，token 处理速度提升约 2–3%；在单块 GeForce RTX 4090 上，速度提升约 7%。”

其他改进与修复

修复了部分 AMD GPU 无法识别时出现的错误，增强了对 AMD 硬件的兼容性。

修补了一些在 macOS 和 Linux 上因未处理错误而导致的崩溃问题，提升稳定性。

下载地址：https://github.com/ollama/ollama/releases/tag/v0.11.9-rc0

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

开源跨平台大模型工具 Ollama 发布 0.11.9-rc0 测试版

最新文章

开源直播与录制工具 OBS Studio 32.0.0 Beta 2 发布