Qwen3.7-Plus 发布了,一个多模态智能体模型


DISCORD

Qwen3.7-Plus 今天上线了。这个模型把视觉和语言统一成了一个多功能的智能体。它基于 Qwen3.7 的文本主干,视觉-语言能力全面升级,同时保留了完整的编码、工具使用和生产力工作流能力。

它的独特之处是能作为多模态交互式混合智能体来用。可以感知现实场景、读屏幕、操作GUI、根据视觉参考写代码、端到端地操作手机App,还能结合网络知识回答视觉问题——在一个循环里无缝融合GUI和CLI交互。作为一个多功能的编码智能体和生产力助手,它能处理从前端原型到复杂软件工程和多步骤工作流自动化的任务,支持全模态输入。它还能泛化到各种智能体框架,不管是Claude Code、OpenClaw、Qwen Code还是别的,表现都差不多。

  • Qwen3.7-Plus —— 现在可以在阿里云 Model Studio获取:

    • 多模态交互式混合智能体:跨视觉和文本任务的统一GUI与CLI操作
    • 支持全模态输入的多功能编码智能体与生产力助手
    • 视觉智能体:感知、推理、事实依据和搜索增强的问答
    • 跨多种智能体框架的泛化能力
  • 通过阿里云 Model Studio API调用。

性能表现

图片 2

文本基准测试

Opus-4.6 Max K2.6 Thinking GLM-5.1 Thinking DeepSeek-V4-Pro Max Qwen3.6-Plus Qwen3.7-Plus
编码智能体
Terminal Bench 2.0-Terminus 65.4 66.7 63.5 67.9 61.6 70.3
SWE-Verified 80.8 80.2 80.6 78.8 77.7
SWE-Pro 57.3 59.5 58.8 59.0 56.6 57.6
SWE-Multilingual 77.5 76.7 76.2 73.8 75.8
NL2repo 47.6 42.8 41.0 35.5 34.4 41.1
SciCode 51.9 52.2 45.1 41.4 51.3
QwenWebDev 1617 1564 1570 1500 1536
QwenSVG 1541 1325 1605 1506 1432 1588
通用智能体
Qwenclaw 65.5 54.7 58.7 59.2 57.2 61.8
CoWorkBench 68.2 58.2 66.0 66.3 64.5 65.1
ClawEval 70.4 61.5 62.7 58.4 57.1 62.7
Skillsbench 56.2 53.1 52.3 45.7 54.9
BFCL-V4 76.7 71.3 70.9 70.6 68.9 72.9
MCP-Mark 56.7 55.9 57.5 57.1 48.2 58.7
MCP-Atlas 75.8 66.6 71.8 73.6 74.1 73.2
Vitabench 39.1 45.1 51.9 42.8 45.6
Deep-Planning 58.9 42.3 34.1 44.6 40.9 62.3
SpreadSheetBench-v1 89.3 84.5 85.2 84.9 80.2 86.3
Kernel Bench L3 2.63/98% 1.41/80% 2.00/78% 1.07/54% 1.03/48% 2.06/98%
QwenWorldBench 56.1 50.9 50.2 52.3 47.6 62.1
STEM 与推理
GPQA Diamond 91.3 90.5 86.2 90.1 90.4 90.3
HLE 40.0 36.4 34.7 37.7 28.8 34.7
LiveCodeBench 88.8 89.6 93.5 87.1 89.6
HMMT 2026 Feb 96.2 92.7 89.4 95.2 87.8 92.9
IMOAnswerBench 75.3 86.0 83.8 89.8 83.8 86.0
CritPT 12.6 8.0 4.6 12.9 2.9 6.0
Apex 34.5 24.0 11.5 38.3 8.8 22.7
通用能力
MMLU-Pro 89.7 87.1 86.3 87.5 88.5 88.5
MMLU-Redux 95.2 95.3 94.3 94.8 94.5 94.5
SuperGPQA 72.5 71.3 68.0 69.9 71.6 71.4
IFEval 91.9 94.5 94.5 91.9 94.3 94.6
IFBench 62.5 76.0 76.0 77.0 74.2 79.1
MRCR-v2 128k 84.0 63.1 62.0 74.4 85.9 91.7
多语言能力
WMT24++ 82.7 81.6 81.8 82.2 84.3 84.6
MAXIFE 81.3 87.7 87.7 88.9 88.2 88.8
MMMLU 90.6 87.5 87.2 87.9 89.5 89.0
MMLU-ProX 86.1 83.7 83.9 83.9 84.7 85.4
NOVA-63 59.1 56.7 54.6 52.8 57.9 58.8
INCLUDE 87.4 84.2 84.3 86.1 85.1 83.0
Global PIQA 91.2 89.2 89.5 90.5 89.8 90.3
PolyMATH 80.2 82.7 67.6 72.0 77.4 84.0
  • Terminal-Bench 2.0: Harbor/Terminus-2 框架;5小时超时,12 CPU/24 GB RAM;temp=1.0, top_p=0.95, top_k=20, max_tokens=80K, 256K 上下文;5次运行平均值。所有实验在每一轮前添加一个 token,允许模型决定是否进行扩展思考。

  • SWE-Bench 系列:内部智能体框架(bash + 文件编辑工具);temp=1.0, top_p=0.95, 200K 上下文窗口。

  • SWE-bench Pro:问题任务已修正,所有基线均在精炼后的基准上进行评估。

  • QwenClawBench:一个真实用户分布的 Claw 智能体基准;开源地址:https://github.com/SKYLENAGE-AI/QwenClawBench

  • CoWorkBench:一个内部协作基准;涵盖计算机科学、金融、法律、医疗和其他生产力领域的长期任务。

  • SkillsBench:通过 OpenCode 在 78 个任务上评估(排除 9 个依赖外部 API 的任务);5次运行平均值。

  • MCP-Mark: GitHub MCP v0.30.3;Playwright 响应截断为 32K tokens。

  • MCP-Atlas:公开集分数;gemini-2.5-pro 评判器。

  • VITA-Bench:平均子领域分数;使用 claude-4.5-sonnet 作为评判器,因为旧的官方评判器已不再可用。

  • Kernel Bench L3:报告指标:在 50 个问题上,相对于 PyTorch eager 参考的每个问题加速中位数 / 比 torch.compile 更快的问题比例。每个测试样本在独立的 Docker 容器中运行,使用一个 H100 80GB GPU,互联网访问仅限于 CUTLASS 代码库和官方 CUDA 文档,限制为 500 次工具调用,在 100 轮无改进后提前停止。应用 GPT-5.4 (xhigh) 来检测潜在的入侵行为。使用 CUPTI 进行内核级计时。

  • 推理场景:推荐系统提示:“推理努力程度设置为 xhigh。请仔细思考任务,验证关键假设,考虑合理的替代方案,并在最终答案中优先考虑正确性、一致性和清晰度。”

  • WMT24++:更难的 WMT24 子集;通过 XCOMET-XXL 在 55 种语言上的平均分数。

  • MAXIFE:在英文 + 多语言提示(共 23 种设置)上的准确率。

  • MMLU-ProX:在 29 种语言上的平均准确率。

  • 空单元格(–)表示分数暂不可用。

Qwen3.7-Plus 的文本性能很有竞争力,全面接近 Max 级别模型。编码智能体方面,在 Terminal Bench 2.0、SWE-bench 系列和 SciCode 上表现不错,能处理现实世界的软件工程和科学编程任务。通用智能体方面,在 MCP-Mark、Deep-Planning 和 Kernel Bench L3 上展示了强大的工具使用和规划能力,在复杂的多步骤规划和 GPU 内核优化方面表现好。推理方面,在 GPQA Diamond、HMMT 和 IMOAnswerBench 上的表现,让它能在困难的 STEM 基准测试里排上号。指令遵循和多语言任务方面,在 IFBench、WMT24++ 和 PolyMATH 上质量稳定,对多语言支持也挺好。

多模态基准测试

GPT-5.4 (xhigh) Opus-4.6 Max Gemini-3.1 Pro Qwen3.6-Plus Qwen3.7-Plus
多模态推理
MMMU-Pro 81.2 73.9 81.8 78.8 79.0
MathVision 91.0 65.5 87.4 88.0 90.3
BabyVision 53.1 12.6 55.9 37.4 70.4 / 64.7
CharXiv(RQ) 84.5 66.0 84.4 81.5 85.9 / 84.4
HiPhO 65.0 40.8 85.4 80.4 84.1
ERQA 67.8 40.8 68.0 65.7 69.8
VisFactor 40.8 24.4 39.8 36.0 42.8
MedXpertQA-MM 77.3 64.4 80.7 68.7 71.0
视觉智能体与编码
ScreenSpot Pro 67.4 49.5 68.1 68.2 79.0
OSWorld-Verified 75.0 72.7 62.5 73.3
AndroidWorld 62.0 70.7 67.2 81.0
QwenVision2Code 1884.0 1518.0 1632.0 1522.0 1772.0
ClawEval-MM 54.4 54.7 45.7 49.1 55.7
多模态搜索与知识问答
SimpleVQA 69.4 79.6 76.9 69.4 81.7
WorldVQA 45.9 65.4 56.1 33.6 61.1
MMSearchPlus 19.7 38.9 42.0 19.6 41.4
BC-VL 48.1 51.5 49.9 26.1 51.1
MMBC 18.8 46.3 28.2 18.3 46.3
通用视觉理解
RealWorldQA 83.8 73.9 83.5 85.4 86.9
CountQA 58.4 32.5 72.8 71.7 77.0
OmniDocBench1.5 85.5 86.6 90.0 91.2 91.4
OCR-Bench-V2(EN) 59.1 54.3 64.6 67.0 70.7
OCR-Bench-V2(ZH) 57.7 54.9 58.2 63.6 67.1
ODinW13 51.8 51.1
自动驾驶
LingoQA 78.2 77.6 66.8 76.0 83.4
Ego3D-Bench↓ 6.9 8.1 10.4 6.1 5.9
SURDS 64.6 58.3 64.0 73.2 77.2
VLADBench 77.1 48.0 73.1 75.6 77.2
视频理解
VideoMME (w/ sub.) 89.5 86.1 88.4 87.8 88.0
VideoMMMU 82.4 85.2 85.3 84.0 85.4
MLVU (M-Avg) 86.1 81.7 84.7 86.7 87.4
TVBench 82.5 69.8 73.0 76.0 78.2
LVBench 77.4 63.0 75.1 74.8 76.2
  • 多模态搜索与知识问答:所有模型均在启用搜索增强的情况下进行评估。

  • BabyVision 和 CharXiv(RQ):分数报告为"带 CI / 不带 CI"。

  • VideoMME (w/ sub.):分数报告为带字幕。

  • BC-VL 和 MMBC:分数报告为在 BC 任务中使用推荐的 presence penalty 1.5。

  • ScreenSpot Pro 和 OSWorld-Verified:分数报告为"enable_thinking=False"。

  • 空单元格(–)表示分数暂不可用。

Qwen3.7-Plus 的多模态改进不只是视觉理解提升了。它反映的是对多模态智能体核心能力的系统性增强:理解复杂视觉输入、对视觉信息推理、使用工具解决问题,最后在代码或GUI环境里执行任务

多模态推理方面,Qwen3.7-Plus 在 BabyVision、MathVision、HiPhO、ERQA 和 VisFactor 这些有挑战的视觉推理基准上表现不错。这些结果说明模型能把细粒度视觉感知、空间关系、物理常识和多步逻辑推理结合起来。特别是 BabyVision 上比 Qwen3.6-Plus 提升明显,说明它在更接近人类早期视觉认知和空间推理的任务上泛化能力更强。

视觉智能体与编码方面,Qwen3.7-Plus 在 ScreenSpot Pro、OSWorld-Verified 和 AndroidWorld 上提升显著。这说明模型不仅能识别屏幕内容,还能定位关键UI元素、理解任务意图、完成多步交互。QwenVision2Code 上,模型也展示了很强的视觉到代码生成能力,能把图像、视频和设计参考变成可执行代码。这些能力构成了多模态智能体从“理解界面”到“操作界面”乃至“构建界面”的基础。

多模态搜索与知识问答方面,Qwen3.7-Plus 在 SimpleVQA、WorldVQA、MMSearchPlus、BC-VL 和 MMBC 上改进明显。模型能把视觉输入和外部知识检索结合起来,回答仅靠图像内容答不了的问题。这让它更适合现实世界的任务,用户不只是问图像里有什么,而是要结合外部信息得到答案。

话说这模型的视觉能力能看懂那种特别糊的截图吗?比如我玩游戏的时候截的图,有时候连我自己都看不清上面的字。

这个 Terminal Bench 2.0-Terminus 的分数,为什么突然从3.6的61.6蹦到70.3了?评测细节变了吗?有点好奇。

之前在Model Studio试过3.6-Plus,感觉代码生成还行。这次多了视觉和GUI操作,想试试让它帮我自动处理一些重复的UI测试步骤,不知道实际用起来流程顺不顺。

没用过别碰。

看到这么多基准测试表格头就大了,就不能直接说比上一代快多少或者便宜多少吗?我们关心的是实际用起来咋样啊。

小白问一下,这个“端到端地操作手机App”具体是怎么实现的呀?是需要我提供什么接口或者模拟器环境吗?不太懂。

智能体模型听着唬人,落地效果才是关键

阿里这迭代速度真猛,多模态都跟上了

糊图它也费劲,太模糊的字一样认不准

阿里更新是真勤,这多模态有人实测了没

阿里这迭代速度是真快,刚出又更新

UI自动化测试我也想试,就怕它点错控件全乱套

糊图它也未必认得清 我试过游戏截图 字一糊就瞎猜

Terminal Bench跳这么多 多半评测集换了 不能直接比

终端bench那分数蹦得有点猛,挺想看评测细节