DeepSeek V4的SWE-bench 81%是真的吗?实测对比

DeepSeek V4发布时官方给的SWE-bench Verified成绩~81%,这数据放眼全行业都是惊人的。但benchmark这东西水分很大,自己跑了一下。

我的测试方式: 从SWE-bench Verified里随机挑了50个题目,跑V4-Pro和V4-Flash,以及对比Claude Sonnet 4.5和GPT-5.4。

结果:

模型 通过数(50题) 通过率
DeepSeek V4-Pro 39 78%
DeepSeek V4-Flash 33 66%
Claude Sonnet 4.5 36 72%
GPT-5.4 34 68%

结论: V4-Pro实测78%,跟官方81%很接近(样本小误差正常)。数据真实性可信,不是纯PR。

但也要注意:

  • V4-Pro跟Sonnet 4.5只差6个点,优势没那么夸张
  • V4-Flash已经能打平GPT-5.4
  • 全真实项目(非benchmark题)差距会进一步缩小

5 个赞

50个样本统计显著性不够。SWE-bench Verified有500题,50题随机取样误差可能很大。但从你的数据看,V4-Pro确实在第一梯队,这点没问题。


2 个赞

我也跑了,用的是200题(大约半数)。V4-Pro 79%,跟楼主相近。

额外观察:

  • V4处理大型代码库(几千行)的能力比Claude强
  • V4的错误修复能力稍弱,改新功能>>修老bug
  • Claude的理解复杂需求能力仍然领先一档

所以不是简单的"谁更强",而是"不同场景各有优势"。


1 个赞

78% vs Sonnet 4.5的72%,能力差距不大。但价格差30倍。

性价比角度: 如果你的SWE-bench通过率从72%涨到78%需要30倍成本,绝大多数团队选72%。

这就是为什么V4的意义超越了benchmark本身——它把"能用"的门槛拉到了所有人都买得起的地步。


3 个赞

benchmark这东西看看就好,实际用起来好不好用只有自己测才知道。不过V4的数据是真能打,值得给自己的项目跑一遍对比。


3 个赞

务实建议:

  • 个人/小团队写代码:直接V4-Pro,性价比无敌
  • 大企业高可靠性项目:Claude Sonnet 4.5或GPT-5.5兜底,V4做日常任务
  • 极度成本敏感:V4-Flash,66%通过率已经够用80%场景

别迷信任何单一benchmark,组合使用才是理性选择。在OpenClaw或其他Agent框架里配多个模型,按任务复杂度自动切换,是目前最划算的方案。

2 个赞

这ROI算法太实在了,一般项目根本撑不住这价差