kimi、智谱、通义、文心,感觉每个月都有新的出来。但实际用下来还是跟claude差不少
差距主要在两方面:一是训练数据质量(英文高质量数据远多于中文),二是RLHF调优的精细度。Anthropic在安全性和有用性之间的平衡做得很好,国产模型很多还在"有用就行"的阶段
日常中文对话其实差距不大了,DeepSeek和Qwen在中文场景甚至比Claude好。差距主要在复杂推理、代码生成和指令遵循上。如果你的场景不涉及这些,国产模型性价比更高
因为卷的是PR不是产品。每家都在刷benchmark榜单,实际用起来该不行还是不行。benchmark分数涨了5%但用户体验涨了0.5%
给国产模型说句公道话:进步速度已经很快了。一年前DeepSeek还是玩具级别的,现在V3写代码已经能打了。再给一年时间可能真能追上
从创业角度看,差一截不影响商用。90%的企业场景不需要最强模型,够用就行。国产模型的优势是低价+合规+中文优化,这三点对企业客户很重要
国产在追赶但差距在缩小
中文理解上国产已经不差了
风扇清灰之后温度降了好几度