ollama 团队近日发布了 0.11.9-rc0 测试版,重点提升了 CPU/GPU 并行性能。此次更新引入了新的执行机制,让 GPU 在处理当前批次任务的同时,CPU 可以并行准备下一批计算,从而减少 GPU 空闲等待时间,旨在提升其在多平台运行 AI 大语言模型时的整体性能。
在实测中,macOS Metal 环境下 token 处理速度提升约 2–3%,而在 GeForce RTX 4090 上提升幅度约 7%。
此外,新版本还修复了 AMD GPU 无法识别的问题,并解决了 macOS 与 Linux 上因未处理错误导致的部分崩溃情况,进一步提升了跨平台稳定性与兼容性。这意味着 ollama 在运行大语言模型时将具备更高的效率和更稳定的表现。
关键性能优化
引入一种新的执行方式:通过在后台并行构建下一批次的计算图,将 GPU 与 CPU 的计算任务重叠执行。这能有效减少 GPU 等待下一批任务所造成的空闲时间,提升吞吐效率。
该改动由 VMware 工程师 Daniel Hiltgen 提出,他在 Pull Request 中指出:
“这重构了 ollama 主运行循环,将主要 GPU 密集任务(Compute+Floats)放在 Go 协程中执行,从而可以并行准备下一批任务,减少 GPU 在等待时的停顿。”
“在 metal(macOS 上)测试中,token 处理速度提升约 2–3%;在单块 GeForce RTX 4090 上,速度提升约 7%。”
其他改进与修复
修复了部分 AMD GPU 无法识别时出现的错误,增强了对 AMD 硬件的兼容性。
修补了一些 在 macOS 和 Linux 上因未处理错误而导致的崩溃问题,提升稳定性。
下载地址:https://github.com/ollama/ollama/releases/tag/v0.11.9-rc0