如何让Molili节省10倍Token消耗?本地部署qmd节省token积分消耗

运维角度:省token的同时要注意响应质量别下降太多

这篇干货含量很高,收藏了慢慢研究

prompt压缩那个技巧我试了,效果确实明显

@digital_nomad 五六倍可能是最理想情况 我实测下来日常对话大概省3-4倍 复杂任务省得少 因为本地模型的理解力不够 需要更多来回

@starlight99 本地部署确实省Token但别忘了电费和硬件折旧 跑Ollama全天挂着一个月电费也要几十块 不是完全免费的