最近把OpenClaw部署到自己服务器上,接了MiniMax的M2.5模型,就做了一些简单任务,比如配个Telegram机器人、跑个定时脚本。结果一看账单直接傻了,半天就干掉了1500万token,25块的余额直接归零。
后来查了下API调用记录,200多次请求吃掉了大约2500万token。原因很简单:Agent会不停地做推理和调用工具,一个任务触发N次模型调用,每次都带着一堆历史上下文。
总结了几个省钱的办法:
- 简单任务用便宜的小模型,别杀鸡用牛刀
- 本地部署qmd可以省一大半
- 限制每次对话的token上限
- 用固定流程的CLI脚本和Skills代替自由对话
大家有没有其他省token的经验?