ollama 团队近日发布了 0.11.9-rc0 测试版,重点提升了 CPU/GPU 并行性能。此次更新引入了新的执行机制,让 GPU 在处理当前批次任务的同时,CPU 可以并行准备下一批计算,从而减少 GPU 空闲等待时间,旨在提升其在多平台运行 AI 大语言模型时的整体性能。

在实测中,macOS Metal 环境下 token 处理速度提升约 2–3%,而在 GeForce RTX 4090 上提升幅度约 7%。

此外,新版本还修复了 AMD GPU 无法识别的问题,并解决了 macOS 与 Linux 上因未处理错误导致的部分崩溃情况,进一步提升了跨平台稳定性与兼容性。这意味着 ollama 在运行大语言模型时将具备更高的效率和更稳定的表现。

关键性能优化

引入一种新的执行方式:通过在后台并行构建下一批次的计算图,将 GPU 与 CPU 的计算任务重叠执行。这能有效减少 GPU 等待下一批任务所造成的空闲时间,提升吞吐效率。

该改动由 VMware 工程师 Daniel Hiltgen 提出,他在 Pull Request 中指出:

“这重构了 ollama 主运行循环,将主要 GPU 密集任务(Compute+Floats)放在 Go 协程中执行,从而可以并行准备下一批任务,减少 GPU 在等待时的停顿。”
“在 metal(macOS 上)测试中,token 处理速度提升约 2–3%;在单块 GeForce RTX 4090 上,速度提升约 7%。”

其他改进与修复

修复了部分 AMD GPU 无法识别时出现的错误,增强了对 AMD 硬件的兼容性。

修补了一些 在 macOS 和 Linux 上因未处理错误而导致的崩溃问题,提升稳定性。

下载地址:https://github.com/ollama/ollama/releases/tag/v0.11.9-rc0

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。