运维角度:省token的同时要注意响应质量别下降太多
这篇干货含量很高,收藏了慢慢研究
prompt压缩那个技巧我试了,效果确实明显
@digital_nomad 五六倍可能是最理想情况 我实测下来日常对话大概省3-4倍 复杂任务省得少 因为本地模型的理解力不够 需要更多来回
@starlight99 本地部署确实省Token但别忘了电费和硬件折旧 跑Ollama全天挂着一个月电费也要几十块 不是完全免费的
运维角度:省token的同时要注意响应质量别下降太多
这篇干货含量很高,收藏了慢慢研究
prompt压缩那个技巧我试了,效果确实明显
@digital_nomad 五六倍可能是最理想情况 我实测下来日常对话大概省3-4倍 复杂任务省得少 因为本地模型的理解力不够 需要更多来回
@starlight99 本地部署确实省Token但别忘了电费和硬件折旧 跑Ollama全天挂着一个月电费也要几十块 不是完全免费的