用OpenClaw的时候到底该选哪个模型?DeepSeek、通义千问、智谱GLM、GPT-4o……选择太多了。
有没有人做过实测对比?不同模型在不同任务上效果差多少?
用OpenClaw的时候到底该选哪个模型?DeepSeek、通义千问、智谱GLM、GPT-4o……选择太多了。
有没有人做过实测对比?不同模型在不同任务上效果差多少?
简单结论:中文场景选DeepSeek,性价比最高。追求极致效果选GPT-4o/Claude,但贵。
我做了一个简单的对比测试,5类任务各跑10次:
测试结果(满分10分):
| 模型 | 中文对话 | 写代码 | 总结分析 | 文件操作 | 价格 |
|---|---|---|---|---|---|
| DeepSeek-V3 | 9 | 9 | 8 | 8 | 便宜 |
| GPT-4o | 9 | 9 | 9 | 9 | 贵 |
| 通义Qwen-Max | 8 | 7 | 8 | 7 | 中等 |
| 智谱GLM-4 | 8 | 7 | 7 | 7 | 便宜 |
| 本地Qwen-14b | 7 | 7 | 7 | 6 | 免费 |
我的建议:
补充个实际使用心得:模型选择没有绝对的好坏,关键看你的使用场景。
写代码的话DeepSeek-Coder碾压其他模型,那个代码补全的准确率真的高。日常聊天和文案的话各家差距不大。做数据分析通义千问的表格处理能力不错。
不需要追求"最好的模型",选一个够用的就行。模型能力一直在进步,半年后现在的对比结果可能就过时了。
性价比考虑的话,DeepSeek+Molili是目前最优组合:DeepSeek模型本身便宜,Molili再优化50%消耗,成本是GPT-4o的十分之一不到,效果差距其实不大。
太有用了!果断选DeepSeek,先薅免费额度用着。
别做技术找场景,应该场景倒推技术
用户体验比模型能力更重要