Holo3.1:一个能快速本地跑的电脑操作AI

返回文章列表










今年三月我们发了当时最先进的电脑操作模型 Holo3。用的人挺快就多起来了。开发者、公司还有合作伙伴开始在各种工作流程里部署它,比如浏览器自动化、商业软件、内部工具和桌面应用。用的人越多,我们就越觉得,光性能好已经不够了。

用户想在桌面和手机环境里都能跑一样的电脑操作能力,还要能跟不同的AI框架无缝接上。他们需要灵活的部署方式,从云端推理到在用户设备上完全本地跑。

所以我们发布了 Holo3.1 系列。Holo3.1 在三个对生产环境最重要的方面加强了稳定性:操作环境(网页、桌面、移动端)、AI框架和部署目标。这是我们第一次发布为本地推理优化的量化模型,包括 FP8、Q4 GGUF 和 NVFP4 格式。

Holo3.1 是我们朝着通用电脑操作AI愿景迈出的一大步:这些系统能跨环境操作,能集成到任何AI技术栈里,并且能在工作流程发生的任何地方运行。


跨环境和框架的电脑操作

基于 Qwen 系列,Holo3.1 的目标是在保持顶级性能的同时,提升电脑操作AI在实际部署环境里的稳定性。

当团队把 Holo3 从评估推进到生产阶段时,我们反复看到同一个问题:一种场景下表现好,不一定能平移到另一种场景。移动设备、不同的AI框架、不同的执行框架都会带来各自的变化。

移动端自动化

Holo3.1 把 Holo3 的能力从浏览器和桌面控制扩展到了移动环境,提升很大。在 AndroidWorld 基准测试里,我们的 35B-A3B 模型从 67% 升到了 79.3%,而更小的 4B 和 9B 版本则从 58% 升到了 72%。

跨框架性能

为了更好地支持那些想在第三方AI技术栈里部署 Holo 的团队,Holo3.1 除了 Holo3 已有的结构化 JSON 输出,现在还原生支持函数调用协议。

在 OSWorld 和我们内部覆盖电商、商业软件和协作工作流的测试集里,函数调用和原生执行现在的性能已经差不多了。在我们自己的 Holotab 产品框架里评估,Holo3.1 也比 Holo3 提升了超过 25%。

更小的模型,平衡成本与性能

为了进一步支持本地和设备端推理,我们还发布了新的模型尺寸,包括小模型(0.8B、4B 和 9B),适合需要经济、私密部署的场景,当然还有追求顶级性能的更大的 35B-A3B 模型。

Holo3.1 和 Qwen 3.5 系列的性能与成本对比。整体性能是先平均四个 H Corporate 的基准测试,然后取 OSWorld、AndroidWorld、H Corporate、ScreenSpot-Pro 和 OSWorld-G 的平均值。


快速本地推理

这是我们第一次发布量化后的模型。我们从 35B-A3B 模型开始,提供了 FP8、Q4 GGUF 和 NVFP4 格式。

对于 NVFP4,我们用了 NVIDIA 的 Model Optimizer,采用 W4A16 配置。这些量化模型让电脑操作AI能进行快速的本地推理,而性能几乎没下降。FP8 和 NVFP4 在 OSWorld 上得分一样,只比全精度的 BF16 模型低大概两分。

速度提升很明显:在 DGX Spark 上,NVFP4 W4A16 的总令牌处理速度是 FP8 的 1.41 倍,是 BF16 的 1.74 倍。

迈向消费级硬件上的本地AI

我们还发布了 Q4 GGUF 格式的模型,目标是让电脑操作AI能在消费级硬件上本地部署。

AI本身在 Windows 或 Mac 电脑上本地跑,而模型可以在同一台机器上运行(我们提供了 Apple Silicon 的参考数据),也可以在同一个网络里的 DGX Spark 上跑。这两种情况下,执行都是完全私密和本地的,没有任何数据离开用户的网络。

在 Spark 上,我们和 NVIDIA 一起做的AI框架优化,加上上面说的 NVFP4 量化,共同带来了相对于 FP8 基线大约 2 倍的端到端加速,把平均步骤时间从 6.8 秒缩短到了 3.3 秒。

跨平台和精度的AI请求处理速度。在 DGX Spark 上,使用 NVFP4 的 vLLM 在默认模式和快速模式下都实现了最高的请求处理速度,其次是 Q4 GGUF 和 FP8。这些改进以及更多功能会在后面发布的桌面AI框架里实现。


有哪些可用

Holo3.1 系列有四种尺寸:

模型 适合用来干嘛
Holo3.1-0.8B 超轻量本地AI
Holo3.1-4B 经济型部署
Holo3.1-9B 平衡性能与延迟
Holo3.1-35B-A3B 追求顶级性能

我们还发布了为本地和边缘部署优化的 FP8、NVFP4 和 Q4 GGUF 格式的模型。


怎么开始用

等着看开发者们能用 Holo3.1 做出点啥。

这玩意儿看起来挺厉害,但我更关心它到底能帮我自动填表格不?我们公司天天要填一堆系统,手动搞太费时间了。有谁实际试过类似场景吗?效果好我就让老板采购去。

是不是得先装个Qwen的基础模型才能跑这个啊?小白问一下,看帖子说基于Qwen系列,不太确定是不是意味着要自己先搭环境。

按照我的经验,本地部署这种AI操作工具,最关键的是显存。如果你用4B的GGUF版本,8G显存的卡勉强能跑,但响应速度一般。建议至少12G以上,不然频繁操作桌面会卡顿。我之前在内部工具集成时踩过坑,模型加载没问题,但一执行连续点击指令就内存泄漏,后来发现是框架兼容问题。Holo3.1说加强了稳定性,希望真解决了。

又来这种帖子了,每次都说“一大步”,结果本地一跑全是依赖冲突,debug两小时最后发现文档漏写一步。笑死。

楼主说的移动端自动化提升到79.3%,这个测试是在什么具体机型上跑的?是模拟器还是真机?有没有测试不同安卓版本的表现差异?这点对实际项目选型很重要。

我最近在玩星穹铁道,这AI能帮我自动刷日常副本吗?好像跑题了哈哈,不过如果真能操作手机界面,是不是理论上可以写脚本挂游戏?

本地能跑的桌面操作模型挺香,就是不知道对显卡要求高不高

本地能跑的操作AI挺香,隐私上也安心点

本地跑对配置要求高不高,普通笔记本带得动吗

能本地快速跑这点香,就怕显存又是个拦路虎