为什么国产大模型越来越卷了但体验还是差一截

kimi、智谱、通义、文心,感觉每个月都有新的出来。但实际用下来还是跟claude差不少

差距主要在两方面:一是训练数据质量(英文高质量数据远多于中文),二是RLHF调优的精细度。Anthropic在安全性和有用性之间的平衡做得很好,国产模型很多还在"有用就行"的阶段

日常中文对话其实差距不大了,DeepSeek和Qwen在中文场景甚至比Claude好。差距主要在复杂推理、代码生成和指令遵循上。如果你的场景不涉及这些,国产模型性价比更高

因为卷的是PR不是产品。每家都在刷benchmark榜单,实际用起来该不行还是不行。benchmark分数涨了5%但用户体验涨了0.5%

给国产模型说句公道话:进步速度已经很快了。一年前DeepSeek还是玩具级别的,现在V3写代码已经能打了。再给一年时间可能真能追上

从创业角度看,差一截不影响商用。90%的企业场景不需要最强模型,够用就行。国产模型的优势是低价+合规+中文优化,这三点对企业客户很重要

国产在追赶但差距在缩小

中文理解上国产已经不差了

风扇清灰之后温度降了好几度