DeepSeek V4发布时官方给的SWE-bench Verified成绩~81%,这数据放眼全行业都是惊人的。但benchmark这东西水分很大,自己跑了一下。
我的测试方式: 从SWE-bench Verified里随机挑了50个题目,跑V4-Pro和V4-Flash,以及对比Claude Sonnet 4.5和GPT-5.4。
结果:
| 模型 |
通过数(50题) |
通过率 |
| DeepSeek V4-Pro |
39 |
78% |
| DeepSeek V4-Flash |
33 |
66% |
| Claude Sonnet 4.5 |
36 |
72% |
| GPT-5.4 |
34 |
68% |
结论: V4-Pro实测78%,跟官方81%很接近(样本小误差正常)。数据真实性可信,不是纯PR。
但也要注意:
- V4-Pro跟Sonnet 4.5只差6个点,优势没那么夸张
- V4-Flash已经能打平GPT-5.4
- 全真实项目(非benchmark题)差距会进一步缩小
5 个赞
50个样本统计显著性不够。SWE-bench Verified有500题,50题随机取样误差可能很大。但从你的数据看,V4-Pro确实在第一梯队,这点没问题。
2 个赞
我也跑了,用的是200题(大约半数)。V4-Pro 79%,跟楼主相近。
额外观察:
- V4处理大型代码库(几千行)的能力比Claude强
- V4的错误修复能力稍弱,改新功能>>修老bug
- Claude的理解复杂需求能力仍然领先一档
所以不是简单的"谁更强",而是"不同场景各有优势"。
1 个赞
78% vs Sonnet 4.5的72%,能力差距不大。但价格差30倍。
性价比角度: 如果你的SWE-bench通过率从72%涨到78%需要30倍成本,绝大多数团队选72%。
这就是为什么V4的意义超越了benchmark本身——它把"能用"的门槛拉到了所有人都买得起的地步。
3 个赞
benchmark这东西看看就好,实际用起来好不好用只有自己测才知道。不过V4的数据是真能打,值得给自己的项目跑一遍对比。
3 个赞
务实建议:
- 个人/小团队写代码:直接V4-Pro,性价比无敌
- 大企业高可靠性项目:Claude Sonnet 4.5或GPT-5.5兜底,V4做日常任务
- 极度成本敏感:V4-Flash,66%通过率已经够用80%场景
别迷信任何单一benchmark,组合使用才是理性选择。在OpenClaw或其他Agent框架里配多个模型,按任务复杂度自动切换,是目前最划算的方案。
2 个赞