DISCORD
Qwen3.7-Plus 今天上线了。这个模型把视觉和语言统一成了一个多功能的智能体。它基于 Qwen3.7 的文本主干,视觉-语言能力全面升级,同时保留了完整的编码、工具使用和生产力工作流能力。
它的独特之处是能作为多模态交互式混合智能体来用。可以感知现实场景、读屏幕、操作GUI、根据视觉参考写代码、端到端地操作手机App,还能结合网络知识回答视觉问题——在一个循环里无缝融合GUI和CLI交互。作为一个多功能的编码智能体和生产力助手,它能处理从前端原型到复杂软件工程和多步骤工作流自动化的任务,支持全模态输入。它还能泛化到各种智能体框架,不管是Claude Code、OpenClaw、Qwen Code还是别的,表现都差不多。
-
Qwen3.7-Plus —— 现在可以在阿里云 Model Studio获取:
- 多模态交互式混合智能体:跨视觉和文本任务的统一GUI与CLI操作
- 支持全模态输入的多功能编码智能体与生产力助手
- 视觉智能体:感知、推理、事实依据和搜索增强的问答
- 跨多种智能体框架的泛化能力
-
通过阿里云 Model Studio API调用。
性能表现

文本基准测试
| Opus-4.6 Max | K2.6 Thinking | GLM-5.1 Thinking | DeepSeek-V4-Pro Max | Qwen3.6-Plus | Qwen3.7-Plus | |
|---|---|---|---|---|---|---|
| 编码智能体 | ||||||
| Terminal Bench 2.0-Terminus | 65.4 | 66.7 | 63.5 | 67.9 | 61.6 | 70.3 |
| SWE-Verified | 80.8 | 80.2 | – | 80.6 | 78.8 | 77.7 |
| SWE-Pro | 57.3 | 59.5 | 58.8 | 59.0 | 56.6 | 57.6 |
| SWE-Multilingual | 77.5 | 76.7 | – | 76.2 | 73.8 | 75.8 |
| NL2repo | 47.6 | 42.8 | 41.0 | 35.5 | 34.4 | 41.1 |
| SciCode | 51.9 | 52.2 | 45.1 | – | 41.4 | 51.3 |
| QwenWebDev | 1617 | – | 1564 | 1570 | 1500 | 1536 |
| QwenSVG | 1541 | 1325 | 1605 | 1506 | 1432 | 1588 |
| 通用智能体 | ||||||
| Qwenclaw | 65.5 | 54.7 | 58.7 | 59.2 | 57.2 | 61.8 |
| CoWorkBench | 68.2 | 58.2 | 66.0 | 66.3 | 64.5 | 65.1 |
| ClawEval | 70.4 | 61.5 | 62.7 | 58.4 | 57.1 | 62.7 |
| Skillsbench | – | 56.2 | 53.1 | 52.3 | 45.7 | 54.9 |
| BFCL-V4 | 76.7 | 71.3 | 70.9 | 70.6 | 68.9 | 72.9 |
| MCP-Mark | 56.7 | 55.9 | 57.5 | 57.1 | 48.2 | 58.7 |
| MCP-Atlas | 75.8 | 66.6 | 71.8 | 73.6 | 74.1 | 73.2 |
| Vitabench | – | 39.1 | 45.1 | 51.9 | 42.8 | 45.6 |
| Deep-Planning | 58.9 | 42.3 | 34.1 | 44.6 | 40.9 | 62.3 |
| SpreadSheetBench-v1 | 89.3 | 84.5 | 85.2 | 84.9 | 80.2 | 86.3 |
| Kernel Bench L3 | 2.63/98% | 1.41/80% | 2.00/78% | 1.07/54% | 1.03/48% | 2.06/98% |
| QwenWorldBench | 56.1 | 50.9 | 50.2 | 52.3 | 47.6 | 62.1 |
| STEM 与推理 | ||||||
| GPQA Diamond | 91.3 | 90.5 | 86.2 | 90.1 | 90.4 | 90.3 |
| HLE | 40.0 | 36.4 | 34.7 | 37.7 | 28.8 | 34.7 |
| LiveCodeBench | 88.8 | 89.6 | – | 93.5 | 87.1 | 89.6 |
| HMMT 2026 Feb | 96.2 | 92.7 | 89.4 | 95.2 | 87.8 | 92.9 |
| IMOAnswerBench | 75.3 | 86.0 | 83.8 | 89.8 | 83.8 | 86.0 |
| CritPT | 12.6 | 8.0 | 4.6 | 12.9 | 2.9 | 6.0 |
| Apex | 34.5 | 24.0 | 11.5 | 38.3 | 8.8 | 22.7 |
| 通用能力 | ||||||
| MMLU-Pro | 89.7 | 87.1 | 86.3 | 87.5 | 88.5 | 88.5 |
| MMLU-Redux | 95.2 | 95.3 | 94.3 | 94.8 | 94.5 | 94.5 |
| SuperGPQA | 72.5 | 71.3 | 68.0 | 69.9 | 71.6 | 71.4 |
| IFEval | 91.9 | 94.5 | 94.5 | 91.9 | 94.3 | 94.6 |
| IFBench | 62.5 | 76.0 | 76.0 | 77.0 | 74.2 | 79.1 |
| MRCR-v2 128k | 84.0 | 63.1 | 62.0 | 74.4 | 85.9 | 91.7 |
| 多语言能力 | ||||||
| WMT24++ | 82.7 | 81.6 | 81.8 | 82.2 | 84.3 | 84.6 |
| MAXIFE | 81.3 | 87.7 | 87.7 | 88.9 | 88.2 | 88.8 |
| MMMLU | 90.6 | 87.5 | 87.2 | 87.9 | 89.5 | 89.0 |
| MMLU-ProX | 86.1 | 83.7 | 83.9 | 83.9 | 84.7 | 85.4 |
| NOVA-63 | 59.1 | 56.7 | 54.6 | 52.8 | 57.9 | 58.8 |
| INCLUDE | 87.4 | 84.2 | 84.3 | 86.1 | 85.1 | 83.0 |
| Global PIQA | 91.2 | 89.2 | 89.5 | 90.5 | 89.8 | 90.3 |
| PolyMATH | 80.2 | 82.7 | 67.6 | 72.0 | 77.4 | 84.0 |
-
Terminal-Bench 2.0: Harbor/Terminus-2 框架;5小时超时,12 CPU/24 GB RAM;temp=1.0, top_p=0.95, top_k=20, max_tokens=80K, 256K 上下文;5次运行平均值。所有实验在每一轮前添加一个 token,允许模型决定是否进行扩展思考。
-
SWE-Bench 系列:内部智能体框架(bash + 文件编辑工具);temp=1.0, top_p=0.95, 200K 上下文窗口。
-
SWE-bench Pro:问题任务已修正,所有基线均在精炼后的基准上进行评估。
-
QwenClawBench:一个真实用户分布的 Claw 智能体基准;开源地址:https://github.com/SKYLENAGE-AI/QwenClawBench。
-
CoWorkBench:一个内部协作基准;涵盖计算机科学、金融、法律、医疗和其他生产力领域的长期任务。
-
SkillsBench:通过 OpenCode 在 78 个任务上评估(排除 9 个依赖外部 API 的任务);5次运行平均值。
-
MCP-Mark: GitHub MCP v0.30.3;Playwright 响应截断为 32K tokens。
-
MCP-Atlas:公开集分数;gemini-2.5-pro 评判器。
-
VITA-Bench:平均子领域分数;使用 claude-4.5-sonnet 作为评判器,因为旧的官方评判器已不再可用。
-
Kernel Bench L3:报告指标:在 50 个问题上,相对于 PyTorch eager 参考的每个问题加速中位数 / 比 torch.compile 更快的问题比例。每个测试样本在独立的 Docker 容器中运行,使用一个 H100 80GB GPU,互联网访问仅限于 CUTLASS 代码库和官方 CUDA 文档,限制为 500 次工具调用,在 100 轮无改进后提前停止。应用 GPT-5.4 (xhigh) 来检测潜在的入侵行为。使用 CUPTI 进行内核级计时。
-
推理场景:推荐系统提示:“推理努力程度设置为 xhigh。请仔细思考任务,验证关键假设,考虑合理的替代方案,并在最终答案中优先考虑正确性、一致性和清晰度。”
-
WMT24++:更难的 WMT24 子集;通过 XCOMET-XXL 在 55 种语言上的平均分数。
-
MAXIFE:在英文 + 多语言提示(共 23 种设置)上的准确率。
-
MMLU-ProX:在 29 种语言上的平均准确率。
-
空单元格(–)表示分数暂不可用。
Qwen3.7-Plus 的文本性能很有竞争力,全面接近 Max 级别模型。编码智能体方面,在 Terminal Bench 2.0、SWE-bench 系列和 SciCode 上表现不错,能处理现实世界的软件工程和科学编程任务。通用智能体方面,在 MCP-Mark、Deep-Planning 和 Kernel Bench L3 上展示了强大的工具使用和规划能力,在复杂的多步骤规划和 GPU 内核优化方面表现好。推理方面,在 GPQA Diamond、HMMT 和 IMOAnswerBench 上的表现,让它能在困难的 STEM 基准测试里排上号。指令遵循和多语言任务方面,在 IFBench、WMT24++ 和 PolyMATH 上质量稳定,对多语言支持也挺好。
多模态基准测试
| GPT-5.4 (xhigh) | Opus-4.6 Max | Gemini-3.1 Pro | Qwen3.6-Plus | Qwen3.7-Plus | |
|---|---|---|---|---|---|
| 多模态推理 | |||||
| MMMU-Pro | 81.2 | 73.9 | 81.8 | 78.8 | 79.0 |
| MathVision | 91.0 | 65.5 | 87.4 | 88.0 | 90.3 |
| BabyVision | 53.1 | 12.6 | 55.9 | 37.4 | 70.4 / 64.7 |
| CharXiv(RQ) | 84.5 | 66.0 | 84.4 | 81.5 | 85.9 / 84.4 |
| HiPhO | 65.0 | 40.8 | 85.4 | 80.4 | 84.1 |
| ERQA | 67.8 | 40.8 | 68.0 | 65.7 | 69.8 |
| VisFactor | 40.8 | 24.4 | 39.8 | 36.0 | 42.8 |
| MedXpertQA-MM | 77.3 | 64.4 | 80.7 | 68.7 | 71.0 |
| 视觉智能体与编码 | |||||
| ScreenSpot Pro | 67.4 | 49.5 | 68.1 | 68.2 | 79.0 |
| OSWorld-Verified | 75.0 | 72.7 | – | 62.5 | 73.3 |
| AndroidWorld | – | 62.0 | 70.7 | 67.2 | 81.0 |
| QwenVision2Code | 1884.0 | 1518.0 | 1632.0 | 1522.0 | 1772.0 |
| ClawEval-MM | 54.4 | 54.7 | 45.7 | 49.1 | 55.7 |
| 多模态搜索与知识问答 | |||||
| SimpleVQA | 69.4 | 79.6 | 76.9 | 69.4 | 81.7 |
| WorldVQA | 45.9 | 65.4 | 56.1 | 33.6 | 61.1 |
| MMSearchPlus | 19.7 | 38.9 | 42.0 | 19.6 | 41.4 |
| BC-VL | 48.1 | 51.5 | 49.9 | 26.1 | 51.1 |
| MMBC | 18.8 | 46.3 | 28.2 | 18.3 | 46.3 |
| 通用视觉理解 | |||||
| RealWorldQA | 83.8 | 73.9 | 83.5 | 85.4 | 86.9 |
| CountQA | 58.4 | 32.5 | 72.8 | 71.7 | 77.0 |
| OmniDocBench1.5 | 85.5 | 86.6 | 90.0 | 91.2 | 91.4 |
| OCR-Bench-V2(EN) | 59.1 | 54.3 | 64.6 | 67.0 | 70.7 |
| OCR-Bench-V2(ZH) | 57.7 | 54.9 | 58.2 | 63.6 | 67.1 |
| ODinW13 | – | – | – | 51.8 | 51.1 |
| 自动驾驶 | |||||
| LingoQA | 78.2 | 77.6 | 66.8 | 76.0 | 83.4 |
| Ego3D-Bench↓ | 6.9 | 8.1 | 10.4 | 6.1 | 5.9 |
| SURDS | 64.6 | 58.3 | 64.0 | 73.2 | 77.2 |
| VLADBench | 77.1 | 48.0 | 73.1 | 75.6 | 77.2 |
| 视频理解 | |||||
| VideoMME (w/ sub.) | 89.5 | 86.1 | 88.4 | 87.8 | 88.0 |
| VideoMMMU | 82.4 | 85.2 | 85.3 | 84.0 | 85.4 |
| MLVU (M-Avg) | 86.1 | 81.7 | 84.7 | 86.7 | 87.4 |
| TVBench | 82.5 | 69.8 | 73.0 | 76.0 | 78.2 |
| LVBench | 77.4 | 63.0 | 75.1 | 74.8 | 76.2 |
-
多模态搜索与知识问答:所有模型均在启用搜索增强的情况下进行评估。
-
BabyVision 和 CharXiv(RQ):分数报告为"带 CI / 不带 CI"。
-
VideoMME (w/ sub.):分数报告为带字幕。
-
BC-VL 和 MMBC:分数报告为在 BC 任务中使用推荐的 presence penalty 1.5。
-
ScreenSpot Pro 和 OSWorld-Verified:分数报告为"enable_thinking=False"。
-
空单元格(–)表示分数暂不可用。
Qwen3.7-Plus 的多模态改进不只是视觉理解提升了。它反映的是对多模态智能体核心能力的系统性增强:理解复杂视觉输入、对视觉信息推理、使用工具解决问题,最后在代码或GUI环境里执行任务。
多模态推理方面,Qwen3.7-Plus 在 BabyVision、MathVision、HiPhO、ERQA 和 VisFactor 这些有挑战的视觉推理基准上表现不错。这些结果说明模型能把细粒度视觉感知、空间关系、物理常识和多步逻辑推理结合起来。特别是 BabyVision 上比 Qwen3.6-Plus 提升明显,说明它在更接近人类早期视觉认知和空间推理的任务上泛化能力更强。
视觉智能体与编码方面,Qwen3.7-Plus 在 ScreenSpot Pro、OSWorld-Verified 和 AndroidWorld 上提升显著。这说明模型不仅能识别屏幕内容,还能定位关键UI元素、理解任务意图、完成多步交互。QwenVision2Code 上,模型也展示了很强的视觉到代码生成能力,能把图像、视频和设计参考变成可执行代码。这些能力构成了多模态智能体从“理解界面”到“操作界面”乃至“构建界面”的基础。
多模态搜索与知识问答方面,Qwen3.7-Plus 在 SimpleVQA、WorldVQA、MMSearchPlus、BC-VL 和 MMBC 上改进明显。模型能把视觉输入和外部知识检索结合起来,回答仅靠图像内容答不了的问题。这让它更适合现实世界的任务,用户不只是问图像里有什么,而是要结合外部信息得到答案。