接入 Claude 模型后 Token 翻倍,这笔账怎么算?

最近把 OpenClaw 后端模型从 GPT-4o 换成了 Claude Sonnet,效果好了不少但 Token 消耗直接翻倍了。Claude 模型回复就是长,控制不住。有没有什么办法在保持质量的前提下压缩 Token?

Claude 模型确实话多,这是特性不是 bug。几个压缩方法:一是 system prompt 里加「简洁回复,不要废话」,能砍掉 30% 左右。二是用 max_tokens 强制截断。三是考虑用 Haiku 处理简单任务,Sonnet 只用在复杂场景,分级调用省不少。

system prompt 加一句「用最少的字回答」效果立竿见影

分级调用是正解。简单问题走 Haiku,复杂推理走 Sonnet,别什么都用最贵的模型

@algoyuanwork 分级调用这个思路好,回去改下路由逻辑

上周跑了个爬虫任务,光Token就烧了42块,心疼死了

接入后Token翻倍,老板看账单脸都绿了

翻倍其实正常,效果好的话ROI还是正的