趁着OpenClaw
升级“多模型协作”的热潮,我决定挑战打造最强OpenClaw!这次暂不考虑国外大模型,主打一个纯血“全国产模型栈”。经过摸索,我总结出了一套按角色分工的实战选型思路,今天分享给大家。
一、我认为最佳组合,实际上在解决什么问题?
以下是我认为现在阶段大模型LLM的最佳配置是:
1.主控模型:GPT 5.4
2.写作模型:Claude 4.6 Opus
3.编程模型:GPT 5.3 Codex
4.兜底模型:GLM 4.7
5.向量模型:BGE-M3
6.本地模型:Qwen3-Coder-Next
这套组合的底层逻辑其实非常合理:
•主控模型 负责规划、调度、调用工具、保持全局一致性
•写作模型 负责长文、润色、结构化表达、语气与风格
•编程模型 负责代码生成、重构、调试、补丁级修改
•兜底模型 负责低价值任务、失败重试、成本控制
•向量模型 负责记忆检索
•本地模型 负责隐私敏感和低延迟的本地任务
所以如果你要切到全国产,关键不是问:
“哪个国产模型最强?”
而是问:
“每一个角色,最需要什么能力?国产模型里谁最适合扮演这个角色?”
这两个问题,看起来像一回事,实际上完全不是一回事。
二、全国产替代时,最容易犯的 3 个错误
错误 1:只看总榜,不看角色分工
很多人会直接找一个「综合最强国产模型」,然后希望它一肩挑:
•又主控
•又写作
•又编程
•又做兜底
结果通常是:
•某一项很强,另一项不稳
•主控还行,但写作不细腻
•编程很强,但工具调用和计划执行不够稳
结论 :
多模型系统里,最重要的不是单点最强,而是角色匹配度 。
错误 2:把“推理强”误当成“主控强”
一个模型很会做题、很会长链推理,不代表它就适合做主控。
主控模型需要的核心能力是:
•指令跟随稳定
•工具调用稳
•上下文切换干净
•长任务不容易跑偏
•出错后能恢复流程
所以主控更像一个项目经理 + 调度器 ,不是竞赛型选手。
错误 3:完全忽略成本与延迟
国内模型里有的适合「高价值重任务」,有的适合「大量低价值批处理」。
如果不做分层,会出现两种情况:
•明明是简单改写任务,却用最贵最慢的模型
•明明是核心规划任务,却丢给便宜模型,导致全链路跑偏
正确做法 :
把模型按价值密度分层,而不是按“喜欢哪个厂商”来分配。
三、如果全部使用国内模型,我的核心判断
先说结论,再展开:
我给你的推荐结论
如果你要把现在这套组合整体切成全国产,我建议优先采用下面这套:
1.主控模型 :GLM-5
2.写作模型 :Kimi K2.5
3.编程模型 :DeepSeek(新一代代码/推理模型)/ GLM-5
4.兜底模型 :GLM 4.7 / GLM-Flash
5.向量模型 :BGE-M3
6.本地模型 :Qwen3-Coder-Next
这是我认为目前最像你现有组合气质的一套「国产平衡版」。
为什么这么配?下面分角色讲。
四、主控模型为什么首推 GLM-5?
1. 主控最重要的不是“最聪明”,而是“最会带队”
主控模型需要承担的是:
•计划拆解
•工具编排
•上下文管理
•多步任务控制
•失败恢复与继续执行
从这个维度看,GLM-5 是当前国产模型里非常适合担任主控的一类。
2. GLM-5 的强项,和主控的要求高度重合
目前公开资料显示,GLM-5 的突出特点包括:
•更强调 Agentic Engineering 能力,而不是只做单轮问答
•原生支持较强的工具调用 / 多步规划 / 浏览与执行
•支持 200K 长上下文
•在代码、长任务和多步骤工作流中表现比较均衡
换句话说,GLM-5 的优势不是某个单点极致,而是:
它比较像一个能把事情从头带到尾的“总控型模型”。
这和 GPT 5.4 在你现有系统里的角色最接近。
3. 为什么不把 DeepSeek 直接放到主控位?
因为 DeepSeek 更像:
•推理很强
•编程很强
•性价比很高
但“主控位”的要求不是纯推理分数,而是:
•工具协同的稳定性
•长链任务的可控性
•多角色调度的整体感
所以我的判断是:
•主控位优先 GLM-5
•专项编程位再用 DeepSeek
这会比“一把梭哈全交给 DeepSeek”更稳。
五、写作模型为什么首推 Kimi K2.5?
1. 写作位和主控位是两种完全不同的能力
写作模型最需要的是:
•中文自然度
•长文一致性
•风格把控
•跨章节组织能力
•在长材料中抽线索、提炼结构的能力
这和主控位“能不能带队”没关系,和编程位“会不会改代码”也没关系。
2. Kimi K2.5 的优势很适合长文写作
目前它的典型优势是:
•超长文本处理能力强
•更擅长长材料阅读、总结、提炼
•中文内容创作有一定灵气
•对研究、分析、长文改写场景比较友好
如果你的写作任务包括:
•长篇教程
•行业分析
•多章节文章
•从大量材料中提炼观点
那 Kimi K2.5 很适合接住 Claude 4.6 Opus 原来承担的那部分工作。
3. 它的短板也要知道
Kimi 的问题不是不会写,而是有时会出现:
•一致性不如你预期
•长文局部风格跳动
•某些段落会显得“想法很多,但收束稍弱”
所以正确用法不是把它当“随便丢一句就写完”的模型,而是:
•让主控先定结构
•再交给 Kimi 写长文
•最后用轻量模型做二次校对或格式化
4. 写作位的备选:Qwen-Max
如果你的写作工作更偏:
•批量生产
•稳定改写
•成本可控
•100 万上下文级别的大文档处理
那么 Qwen-Max 也很值得考虑。
所以我的建议是:
•偏“创意 + 长文 + 提炼” :Kimi K2.5
•偏“稳定 + 批量 + 长文档工业化处理” :Qwen-Max
如果你只能选一个,我还是更倾向你先用 Kimi K2.5 占住写作主位。
六、编程模型为什么建议用 DeepSeek,而不是直接全靠 Qwen3-Coder-Next?
1. 你的系统里,“编程位”和“本地位”其实是两回事
你现在已经有:
•编程模型:GPT 5.3 Codex
•本地模型:Qwen3-Coder-Next
这说明你本来就不是想让“本地模型等于编程模型”,而是:
•云端编程模型 负责更高阶、更复杂、更通用的编程任务
•本地模型 负责隐私、本地仓库、低延迟和兜底执行
所以在全国产替换时,我建议保留这个结构,不要把两个角色硬合并。
2. DeepSeek 更适合顶替 Codex 的位置
当前 DeepSeek 系列的优势比较清楚:
•代码与推理能力强
•成本效率高
•对复杂逻辑和多步问题拆解有优势
•在国产模型里属于典型的“编程硬实力选手”
如果你的日常任务包括:
•读代码库
•写函数
•补测试
•重构模块
•调试复杂问题
那 DeepSeek 更像是 GPT 5.3 Codex 的对应替代物。
3. 为什么 Qwen3-Coder-Next 仍然要保留?
因为它在另外一个维度非常有价值:
•开源
•可本地部署
•隐私友好
•适合在本地直接读仓库、跑长上下文代码理解
而且它的编码能力已经足够强,放在本地位非常合适。
我的建议不是“二选一”,而是分工:
•云端编程主力 :DeepSeek
•本地编程与私有代码仓支援 :Qwen3-Coder-Next
这才更像成熟系统,而不是单点替换。
七、兜底模型为什么还建议继续让 GLM 系列承担?
1. 兜底模型的要求很特别
它不需要最强,但需要:
•稳
•便宜
•指令跟随不太离谱
•出错时还能把任务接住
所以兜底模型的职责通常是:
•简单改写
•低价值分类
•失败重试
•初稿整理
•格式化输出
2. 为什么 GLM 4.7 / Flash 很适合
如果主控已经是 GLM-5,那么继续用:
•GLM 4.7
•或 GLM-Flash
来做兜底,有两个现实好处:
1.风格和接口习惯相近
主控和兜底出自同一体系时,迁移成本更低。
2.适合承担大量低价值任务
把高价值任务留给主控 / 写作 / 编程主力,把低价值任务分流出去。
3. 兜底位也有别的选择
如果你特别强调成本控制,也可以考虑:
•Qwen-Flash
•MiniMax M2.5
•或其他更便宜的国产轻量模型
但在你当前系统里,我更倾向:
先保持 GLM 系列做兜底,不要一次性把所有角色都换厂商。
这样迁移更稳。
八、向量模型和本地模型,其实已经不用怎么改
1. 向量模型:继续用 BGE-M3
这一项我基本不建议动。
因为 BGE-M3 的价值就在于:
•本地向量化
•多语言兼容
•适合做记忆检索和知识库召回
它不承担主控、写作、编程那种生成任务,所以不需要为了“全国产”再折腾。
2. 本地模型:继续用 Qwen3-Coder-Next
这一项同样建议保留,而且我甚至认为它在你的系统里会变得更重要。
原因是:
•一旦你全栈改成国产,本地能力会成为你的差异化优势
•它能承担:
私有代码仓分析
•本地补全
•离线应急
•本地重构草稿
•云端失败时的降级处理
换句话说:
真正成熟的国产栈,不是“把所有事都交给云”,而是“云 + 本地”协同。
九、我推荐的 3 套国产组合方案
如果你不想只看一个答案,我给你 3 套最值得考虑的组合。
方案 A:平衡型,最接近你现在的体验
1.主控模型:GLM-5
2.写作模型:Kimi K2.5
3.编程模型:DeepSeek / GLM-5
4.兜底模型:GLM 4.7 / GLM-Flash
5.向量模型:BGE-M3
6.本地模型:Qwen3-Coder-Next
适合谁:
•你现在就是多模型重度用户
•想保留“角色分工”这套玩法
•想要最大程度接近现有体验
我的评价:
这是我最推荐你先落地测试的一套。
方案 B:写作与办公优先型
1.主控模型:GLM-5
2.写作模型:Kimi K2.5
3.编程模型:GLM-5 / DeepSeek
4.兜底模型:MiniMax M2.5
5.向量模型:BGE-M3
6.本地模型:Qwen3-Coder-Next
适合谁:
•你的主要工作是写文章、做研究、做报告、整理知识库
•编程是辅助,而不是绝对主业
我的评价:
如果你内容生产明显多于写代码,这套会比较舒服。
方案 C:降本 + 本地优先型
1.主控模型:GLM-5
2.写作模型:Qwen-Max
3.编程模型:DeepSeek
4.兜底模型:Qwen-Flash / GLM-Flash
5.向量模型:BGE-M3
6.本地模型:Qwen3-Coder-Next
适合谁:
•想尽量压低长期使用成本
•有较多大文档、批量改写、工业化输出场景
•希望本地模型承担更高比例任务
我的评价:
这套没有方案 A 那么“丝滑”,但长期看更经济,也更适合走国产稳定化路线。
十、如果是我来帮你拍板,我会怎么选?
如果只给一个最终建议,我会这样配:
最推荐的全国产组合
1.主控模型 :GLM-5
2.写作模型 :Kimi K2.5
3.编程模型 :DeepSeek / GLM-5
4.兜底模型 :GLM 4.7 / GLM-Flash
5.向量模型 :BGE-M3
6.本地模型 :Qwen3-Coder-Next
为什么是这套?
因为它的分工非常清晰:
•GLM-5 负责总控、调度、长任务编排
•Kimi K2.5 负责中文长文、长材料提炼、创意表达
•DeepSeek / GLM-5 负责代码硬任务、推理和复杂问题拆解
•GLM 4.7 / Flash 负责低价值任务和失败兜底
•BGE-M3 继续负责记忆与检索
•Qwen3-Coder-Next 负责本地、私有、离线和低延迟代码任务
这套搭配的最大优点是:
不是“谁最火就用谁”,而是每个模型都放在自己最顺手的位置。
十一、如果要迁移时的实际建议:不要一步切完
最稳的迁移方式不是“今天全部替换完”,而是分 3 步走。
第一步:先换主控
先把:
•GPT 5.4 → GLM-5
观察两个指标:
•多步任务有没有明显跑偏
•工具调用和计划执行是否稳定
第二步:再换写作和编程
然后替换:
•Claude 4.6 Opus → Kimi K2.5
•GPT 5.3 Codex → DeepSeek / GLM-5
重点观察:
•文章质量是不是还能达到你的发布标准
•编程任务是不是还能保持补丁级可用性
第三步:最后优化成本层
最后才调:
•兜底模型
•批量改写模型
•本地模型参与比例
这一层属于优化,不属于核心功能替换。
十二、最终总结
如果你把OpenClaw
全部切到国内模型,不是不能做,而且现在已经完全值得做 。
但前提是你要接受一个现实:
不是找一个“最强国产模型”,而是重新搭一套“分工明确的国产模型组织结构”。
我给你的核心结论是:
•主控 :优先 GLM-5
•写作 :优先 Kimi K2.5
•编程 :优先 DeepSeek / GLM-5
•兜底 :优先 GLM 4.7 / Flash
•向量 :继续 BGE-M3
•本地 :继续 Qwen3-Coder-Next
如果你按这条路去迁移,你得到的不会只是“国产替代”,而是一套更适合长期折腾、成本更可控、隐私更友好的国产多模型协同体系 。