DeepSeek昨天(4月24日)发了V4,跟GPT-5.5同一天,这时间点太耐人寻味了。
先整理核心信息:
两个版本:
deepseek-v4-pro:1.6T总参数,49B激活(MoE)
deepseek-v4-flash:284B总参数,13B激活(MoE)
关键特性:
- 上下文窗口 1M tokens(跟Gemini一个级别)
- 开源,Apache 2.0(权重上HuggingFace)
- API定价 $0.30/MTok(比GPT-5.5便宜一个数量级)
Benchmark:
- Codeforces 3206(超过GPT-5.4 xHigh的3168)
- SWE-bench Verified ~81%(V3.2是67.8%)
- Arena AI代码榜开源第3,比V3.2涨88 Elo
架构亮点: 混合注意力机制,CSA(Compressed Sparse Attention)+ HCA(Heavily Compressed Attention)
想讨论几个问题:
- 选GPT-5.5同天发,是正面硬刚吗?
- 1.6T MoE开源是什么量级的事?
- SWE-bench 81%是真数据还是PR?
2 个赞
1.6T MoE开源这事是真的大。
之前最强的开源MoE是Llama系列和Qwen系列,参数在几百B级别,而且激活参数大。V4-Pro 1.6T总参+49B激活,相当于你用中小模型的推理成本获得了超大模型的能力密度。
实测下来V4-Pro推理速度跟V3.2 Speciale差不多,但能力明显强一档。MoE架构的优势在V4上完全展现。
这意味着什么?任何有A100/H100集群的团队都能自建私有V4。企业私有化部署再也不用被闭源API捆死。
2 个赞
SWE-bench Verified 81%我持保留态度。去年V3.2的67.8%已经是开源第一梯队了,一代从67.8%跳到81%是非常激进的进步。
可能性:
- 真的质变(概率30%)
- benchmark过拟合(DeepSeek训练数据里包含了部分verified题目)(概率40%)
- 测试方法差异(比如多次尝试取最好)(概率30%)
建议等一周,第三方跑独立复现以后再下结论。OpenAI的benchmark也经常有"数据好看但落地打折"的情况。
2 个赞
$0.30/MTok。这是什么概念?
- GPT-5.5:暂未公布,按5.4推算约$10+/MTok
- Claude Opus:约$15/MTok
- DeepSeek V4:$0.30/MTok
30-50倍的价格差。 能力接近(如果benchmark是真的),价格差30倍。这不是竞争,是降维打击。
我已经把所有公司项目的默认模型切到V4了,一年API成本预计降90%。
同天发布这事不是巧合。更大的背景是:中美AI差距从"代际差"进入"周级差"了。
过去18个月里:
- DeepSeek R1出来逼得OpenAI加速o1推进
- DeepSeek V3.2逼出GPT-5系列
- 现在V4直接跟GPT-5.5同天发,benchmark还不虚
这个节奏一年前没人敢想。国产大模型不再是"追赶者",开始变成"定节奏的一方"之一。
1 个赞
$0.30一百万token我真的想哭。以前月烧300美金的项目现在10块钱搞定。开源AI真的是穷人的福音
1 个赞
刚把V4接到我的OpenClaw里跑了一晚上Agent任务。几个观察:
- 代码任务:V4-Pro跟Claude Sonnet 4.5不相上下,某些场景更强
- 长上下文:1M真的可以用,扔进去50万token的项目代码它还能稳定理解
- 速度:比GPT-4o快一点点,比Claude Opus快很多
- 翻车场景:中英混合的复杂指令偶尔会切错语言风格
性价比无敌了。国产闭环真的来了。
1 个赞
大家的分析都很到位。我的总结:
短期:V4是大冲击,API成本直接打下来一个数量级。个人用户和中小企业立刻能受益。
中期:OpenAI不得不加速降价+开放,全行业受益。
长期:代表国产大模型真正进入T1梯队了。不是"差不多能用",是"直接对标"。
4月23-24这两天应该会被记入AI大模型发展史。
3 个赞
V4开源1.6T放在两年前根本不敢想,今年开源卷得彻底
这价格真的是降维打击,我做的小项目成本直接可以忽略不计了
说得在理,benchmark刷分本来就容易做手脚,实际工程项目里试过才算
1.6T参数全开源这步棋大,但落地成本还是个坎,私有化部署需要多少机器呢