最近把 OpenClaw 后端模型从 GPT-4o 换成了 Claude Sonnet,效果好了不少但 Token 消耗直接翻倍了。Claude 模型回复就是长,控制不住。有没有什么办法在保持质量的前提下压缩 Token?
Claude 模型确实话多,这是特性不是 bug。几个压缩方法:一是 system prompt 里加「简洁回复,不要废话」,能砍掉 30% 左右。二是用 max_tokens 强制截断。三是考虑用 Haiku 处理简单任务,Sonnet 只用在复杂场景,分级调用省不少。
system prompt 加一句「用最少的字回答」效果立竿见影
分级调用是正解。简单问题走 Haiku,复杂推理走 Sonnet,别什么都用最贵的模型
@algoyuanwork 分级调用这个思路好,回去改下路由逻辑
上周跑了个爬虫任务,光Token就烧了42块,心疼死了
接入后Token翻倍,老板看账单脸都绿了
翻倍其实正常,效果好的话ROI还是正的
翻倍很正常啊,Claude本身token单价就贵,接进去不涨价才奇怪
Claude的system prompt占的Token就比别家多,翻倍正常
可以精简Prompt模板啊,我优化后省了百分之三十的Token
可以设个上下文截断策略,控制每轮最多带多少轮历史
Claude的Token单价确实贵但输出质量高
混合模型策略才是控制成本的关键
可以混合使用,简单任务用便宜模型
Claude模型token消耗确实比其他模型高,但质量也好
Token翻倍主要是Claude的上下文窗口大,每轮带的历史太多
可以混用模型,简单任务用便宜的复杂任务用Claude
可以用prompt压缩技术减少输入Token数量
Claude的Token单价就是贵,效果好但预算得留够