如何让Molili节省10倍Token消耗?本地部署qmd节省token积分消耗

最近在深度使用Molili的时候,相信很多人都已经感受到了极其恐怖的Token消耗素度。要稍微挂载多一点本地文件,没谈几轮对话下来就直接提示hit limit触及限制了。而且很多时候Molili的agent会非常暴力地塞一堆完全无关的历史信息进context上下文里,这样不仅极其费钱,还会严重影响AI回复的精准度。那么有没有办法让Molili的agent做到“精准回忆”,同时又能完全零成本运行呢?答案是有的。今天给大家分享一个外挂神器:qmd。这是一个可以本地运行、免费永久且检索精准度高达95%以上的终极解决方案。

qmd是由Shopify创始人Tobi专门为AI Agent开发的本地运行语义搜索引擎,底层基于Rust语言编写。它的核心功能包括了非常强大的混合搜索(BM25全文检索+向量语义+LLM重排序),因为是完全本地运行的机制,所以API调用成本为零,并且完美支持MCP集成,可以说是为Molili量身定制的插件。

废话不多说,直接上这篇Molili节省Token消耗的保姆级教程,只需3步配置,大约10分钟就能彻底搞定。

第1步:安装qmd环境

首先你的电脑上需要先配置好Bun环境,安装好Bun之后,直接在终端CMD执行以下命令:

bun install -g github:tobi/qmd

注意一点:首次运行这个命令会自动从网络下载必须的Embedding模型和Reranker模型。根据你的网络情况稍微等一会,下载完成后即可完全离线本地运行,后续再怎么折腾都不会消耗一点流量了。

第2步:创建Molili记忆库并生成embeddings

进入你的Workspace,也就是你平时存放Molili对话历史的地方,我们需要索引你的memory文件夹。让Molili依次执行以下代码:

#创建记忆库
qmd collection add memory --name daily-logs --mask “**/*.md”

#生成embeddings

qmd embed

实测这里的索引速度极快,而且全部都是在你自己的电脑本地运行不联网,所以完全不用担心个人隐私数据泄露的问题。

第3步:测试qmd搜索效果

数据跑完之后,你可以自己先在命令行测一下检索能力看看准不准:

#混合搜索(推荐,也是日常最精准的模式)
qmd query “你的搜索关键词”

#纯语义搜索
qmd vsearch “你的搜索关键词”

进阶玩法:配置MCP集成

想要让Molili的AI agent直接全自动调用qmd,我们就需要修改MCP配置文件。在你的mcporter.json文件里加上下面这段配置代码:
{
“mcpServers”: {
“qmd”: {
“command”: “/Users/你的用户名/.bun/bin/qmd”,
“args”: [“mcp”]
}
}
}
(新手提醒:如果是Windows用户,请务必把command里的路径换成你电脑对应的Bun安装绝对路径)

这段MCP集成配置好并且重启Molili后,你会发现agent已经学会主动从庞大的历史log文件中寻找最相关的段落了。它可以完美实现跨文件精准回忆,再也不用靠你手动发Prompt去提醒它之前说过什么设定。

实际效果总结

场景1:回忆用户偏好。以前Molili要回忆一个设定,可能需要把整个长达2000个Token的MEMORY.md文件全塞进上下文。现在有了qmd加持,它只会提取并返回最相关的200个Token片段,既省钱又精准,大幅度降低了Molili不必要的Token消耗。

场景2:跨文件本地知识检索。它可以自动从你所有的memory文件中精准定位并找出最相关段落,准确率极高,彻底解决了长文本检索经常出现AI幻觉或者迷失的问题。

总之,如果你在用Molili觉得Token烧得实在心疼,或者觉得Molili记忆力不佳经常前言不搭后语,强烈建议赶紧按照这个教程把qmd折腾起来,绝对能大幅提升你的日常工作效率。

1 个赞

这个太及时了,确实很需要

token消耗太恐怖了

深有同感钱包在哭

本地部署能省这么多?

亲测至少省五六倍

部署难不难

跟着教程来不难

对硬件有要求吗

普通电脑就能跑

历史信息塞太多是真坑

上下文管理很重要

手动清理一下就好

省下来的钱够吃饭了

哈哈太真实了

长期用必须搞本地

这篇教程写得很实在

10倍节省夸张吗

10倍是不是夸张了?实测下来大概省3-4倍吧

缓存策略确实有效,重复查询场景下省得更多