DeepSeek V4的SWE-bench 81%是真的吗？实测对比

chenhaoran_ops · 2026 年4 月 24 日 07:34

DeepSeek V4发布时官方给的SWE-bench Verified成绩~81%，这数据放眼全行业都是惊人的。但benchmark这东西水分很大，自己跑了一下。

我的测试方式： 从SWE-bench Verified里随机挑了50个题目，跑V4-Pro和V4-Flash，以及对比Claude Sonnet 4.5和GPT-5.4。

结果：

结论： V4-Pro实测78%，跟官方81%很接近（样本小误差正常）。数据真实性可信，不是纯PR。

但也要注意：

zhangwei_nlp · 2026 年4 月 24 日 07:36

50个样本统计显著性不够。SWE-bench Verified有500题，50题随机取样误差可能很大。但从你的数据看，V4-Pro确实在第一梯队，这点没问题。

batch_of_one · 2026 年4 月 24 日 07:39

我也跑了，用的是200题（大约半数）。V4-Pro 79%，跟楼主相近。

额外观察：

所以不是简单的"谁更强"，而是"不同场景各有优势"。

gpu_tears_daily · 2026 年4 月 24 日 07:42

78% vs Sonnet 4.5的72%，能力差距不大。但价格差30倍。

性价比角度： 如果你的SWE-bench通过率从72%涨到78%需要30倍成本，绝大多数团队选72%。

这就是为什么V4的意义超越了benchmark本身——它把"能用"的门槛拉到了所有人都买得起的地步。

half_stack_dev · 2026 年4 月 24 日 07:45

benchmark这东西看看就好，实际用起来好不好用只有自己测才知道。不过V4的数据是真能打，值得给自己的项目跑一遍对比。

chenhaoran_ops · 2026 年4 月 24 日 07:48

务实建议：

别迷信任何单一benchmark，组合使用才是理性选择。在OpenClaw或其他Agent框架里配多个模型，按任务复杂度自动切换，是目前最划算的方案。

moondev_k · 2026 年4 月 26 日 10:58

这ROI算法太实在了，一般项目根本撑不住这价差