今年三月我们发了当时最先进的电脑操作模型 Holo3。用的人挺快就多起来了。开发者、公司还有合作伙伴开始在各种工作流程里部署它,比如浏览器自动化、商业软件、内部工具和桌面应用。用的人越多,我们就越觉得,光性能好已经不够了。
用户想在桌面和手机环境里都能跑一样的电脑操作能力,还要能跟不同的AI框架无缝接上。他们需要灵活的部署方式,从云端推理到在用户设备上完全本地跑。
所以我们发布了 Holo3.1 系列。Holo3.1 在三个对生产环境最重要的方面加强了稳定性:操作环境(网页、桌面、移动端)、AI框架和部署目标。这是我们第一次发布为本地推理优化的量化模型,包括 FP8、Q4 GGUF 和 NVFP4 格式。
Holo3.1 是我们朝着通用电脑操作AI愿景迈出的一大步:这些系统能跨环境操作,能集成到任何AI技术栈里,并且能在工作流程发生的任何地方运行。
跨环境和框架的电脑操作
基于 Qwen 系列,Holo3.1 的目标是在保持顶级性能的同时,提升电脑操作AI在实际部署环境里的稳定性。
当团队把 Holo3 从评估推进到生产阶段时,我们反复看到同一个问题:一种场景下表现好,不一定能平移到另一种场景。移动设备、不同的AI框架、不同的执行框架都会带来各自的变化。
移动端自动化
Holo3.1 把 Holo3 的能力从浏览器和桌面控制扩展到了移动环境,提升很大。在 AndroidWorld 基准测试里,我们的 35B-A3B 模型从 67% 升到了 79.3%,而更小的 4B 和 9B 版本则从 58% 升到了 72%。
跨框架性能
为了更好地支持那些想在第三方AI技术栈里部署 Holo 的团队,Holo3.1 除了 Holo3 已有的结构化 JSON 输出,现在还原生支持函数调用协议。
在 OSWorld 和我们内部覆盖电商、商业软件和协作工作流的测试集里,函数调用和原生执行现在的性能已经差不多了。在我们自己的 Holotab 产品框架里评估,Holo3.1 也比 Holo3 提升了超过 25%。
更小的模型,平衡成本与性能
为了进一步支持本地和设备端推理,我们还发布了新的模型尺寸,包括小模型(0.8B、4B 和 9B),适合需要经济、私密部署的场景,当然还有追求顶级性能的更大的 35B-A3B 模型。
Holo3.1 和 Qwen 3.5 系列的性能与成本对比。整体性能是先平均四个 H Corporate 的基准测试,然后取 OSWorld、AndroidWorld、H Corporate、ScreenSpot-Pro 和 OSWorld-G 的平均值。
快速本地推理
这是我们第一次发布量化后的模型。我们从 35B-A3B 模型开始,提供了 FP8、Q4 GGUF 和 NVFP4 格式。
对于 NVFP4,我们用了 NVIDIA 的 Model Optimizer,采用 W4A16 配置。这些量化模型让电脑操作AI能进行快速的本地推理,而性能几乎没下降。FP8 和 NVFP4 在 OSWorld 上得分一样,只比全精度的 BF16 模型低大概两分。
速度提升很明显:在 DGX Spark 上,NVFP4 W4A16 的总令牌处理速度是 FP8 的 1.41 倍,是 BF16 的 1.74 倍。
迈向消费级硬件上的本地AI
我们还发布了 Q4 GGUF 格式的模型,目标是让电脑操作AI能在消费级硬件上本地部署。
AI本身在 Windows 或 Mac 电脑上本地跑,而模型可以在同一台机器上运行(我们提供了 Apple Silicon 的参考数据),也可以在同一个网络里的 DGX Spark 上跑。这两种情况下,执行都是完全私密和本地的,没有任何数据离开用户的网络。
在 Spark 上,我们和 NVIDIA 一起做的AI框架优化,加上上面说的 NVFP4 量化,共同带来了相对于 FP8 基线大约 2 倍的端到端加速,把平均步骤时间从 6.8 秒缩短到了 3.3 秒。
跨平台和精度的AI请求处理速度。在 DGX Spark 上,使用 NVFP4 的 vLLM 在默认模式和快速模式下都实现了最高的请求处理速度,其次是 Q4 GGUF 和 FP8。这些改进以及更多功能会在后面发布的桌面AI框架里实现。
有哪些可用
Holo3.1 系列有四种尺寸:
| 模型 | 适合用来干嘛 |
|---|---|
| Holo3.1-0.8B | 超轻量本地AI |
| Holo3.1-4B | 经济型部署 |
| Holo3.1-9B | 平衡性能与延迟 |
| Holo3.1-35B-A3B | 追求顶级性能 |
我们还发布了为本地和边缘部署优化的 FP8、NVFP4 和 Q4 GGUF 格式的模型。
怎么开始用
- Holo Models API: https://hcompany.ai/holo-models-api
- Hugging Face: https://huggingface.co/collections/Hcompany/holo31
等着看开发者们能用 Holo3.1 做出点啥。