Mistral AI 发布 Search Toolkit

今天,Search Toolkit 公开预览版正式上线了。这是一个框架,用来给 AI 应用搭生产级别的搜索管道。

我们做这个东西,是因为发现很多团队在搞搜索基建时,太多时间都花在底层连接这些脏活上了。大家总得把数据摄取、检索、评估这几块的工具拼到一起,每套工具接口不一样,对数据的假设也不同,特别折腾。Search Toolkit 就是把这三样整合到一个统一的框架里,用一套共享的接口,让团队能专心搞搜索质量,而不是天天维护集成。它是开源的,能在你基础设施所在的任何地方跑,云端、本地、边缘都行。

现在的搜索基建,还是太费劲了

多数做检索系统的团队,花在拼装基础设施上的时间,比改进搜索质量还多。搞数据摄取需要一套工具,检索又是另一套,评估(如果真做的话)还得再找个框架,数据格式可能又对不上。

有团队反馈,他们得花好几周做集成,才能用自己的数据跑一次查询。想看看检索器返回的结果对不对,通常又得换另一套工具链。对于做 RAG 工作流或者内部知识系统的团队,这种开销在每一层都会重复,太头秃了。

这玩意儿能用在哪儿

企业搜索。 公司里通常不止一个搜索需求,而是一堆:内部 wiki、客服工单、文档库、文件存储、代码库…每个数据源结构不同、元数据不同,处理起来也得用不同的方法才能建好索引。结果就是,团队往往得给每个数据源单独搞一套摄取管道,各有各的解析逻辑、分块策略和对“文档”格式的假设。最后弄出一堆彼此孤立的索引,没法统一搜;或者自己硬写个统一层,结果变得很脆弱,维护起来也麻烦。Search Toolkit 在同一个框架里,提供了跨数据源的一致处理和索引模式,这样加新数据源就不用每次都重搭管道了。


RAG 和检索质量。 当 RAG 系统返回的结果很拉跨时,第一个问题就是:到底是检索不行,还是生成不行?实际上,大多数团队没啥好办法来定位问题。他们可能在检索器根本没给对上下文的情况下,就去调提示词、改分块策略、换模型。就算是那些真想优化检索的团队,也常常缺少工具,来根据自己的数据和相关性判断,严格比较不同策略。要不然就得为每次实验写自定义评估脚本。Search Toolkit 自带了评估功能,可以单独衡量检索器的表现,这样你就能把检索质量和生成质量分开看,也能在语料库更新时比较不同配置。

特定领域检索。 比如法律文件、医疗记录、代码库、财务报告。现成的检索器是在通用文本上训练的,碰到专业术语、特殊文档结构和相关性标准时,往往就不灵了。想在特定领域调优检索的团队,最后往往得从头自己搭一套检索基建,成本高,评估起来也难。

智能体也需要搜索

处理企业任务的智能体,需要接触到企业的上下文信息。它们自己做检索决策,而且量很大,所以底层搜索基础设施的质量,直接影响到下游每一步。对于需要搜索大量文档的情况,智能体可以在索引上做语义搜索,这样又快又准。

智能体也需要实时数据。通过 uvx copier copy gh:mistralai/search-starter-app my-search-projectcd my-search-project,它们能直接用 MCP 集成从 CRM、代码仓库、生产力工具这些源系统里拉数据。当智能体需要搜索存量内容时,它可以查索引;当它需要最新信息时,它可以直接去源系统里拉实时的。Search Toolkit 给你的智能体提供了一条高质量的索引搜索路径,可以和实时检索搭配着用。

核心部件

数据摄取。 用可配置的管道,从多个来源索引和处理数据。Search Toolkit 处理文档解析、分块和生成嵌入向量。自定义的文档格式和预处理步骤,可以通过标准适配器接口接进来。

检索。 内置了 BM25 稀疏检索、基于嵌入向量的密集检索,以及混合检索。每种都可以根据你的数据和用例来配置。

评估。 用内置的指标来衡量搜索质量,比如召回率、精确率、平均倒数排名这些。针对你自己的测试集跑评估,并列比较不同的检索器配置,跟踪不同版本的质量变化。

所有模块都共用一套配置接口。换你的索引器、换检索器、加评估器,管道的其他部分会自动适应。

Search Toolkit 是为企业的进阶需求设计的,已经在金融服务、制造业、公共部门还有媒体娱乐这些行业用过了。像 CMA CGM 就用它和 Voxtral 来帮记者识别假新闻。他们的管道处理来自三个不同数据源的音频,能在 15 秒内端到端给出警报。

看个演示

Video 3

怎么开始用

最快的方法是试试我们给的

前提条件

你得先装好 Docker。项目生成后还需要装 uv

创建新项目

uvx copier copy gh:mistralai/search-starter-app my-search-projectcd my-search-project

跑起来

`# 用 Docker 在本地启动 Vespa
make setup-vespa

索引示例数据

make ingest path=sample_data/hello.txt

执行查询

make search query=“hello world”`

这个模板里包含了:

  • 预配置好的 Vespa 索引
  • 混合检索
  • 示例数据和摄取管道

更多细节看

接下来

试过入门应用后,可以再深入看看:

  • – 为特定文件类型配置解析器、分块策略、嵌入模型和提取器,来处理你的数据。
  • – 针对你的用例,优化索引和排序配置。
  • – 用上查询重写、重排序、混合检索这些高级功能。

完整的参考,去看 。

感觉这种工具对中小企业是不是太重量级了?我们公司就几个人,自己写脚本从数据库拉数据做搜索,好像也够用了,整这么一套会不会反而复杂化了。

有没有具体的数据源适配器列表可以参考啊?比如我公司用Confluence和Jira,想知道它是不是自带这些连接器,还是要自己写集成代码。

这东西能解决我的痛点啊!之前做客服知识库,天天折腾不同格式的FAQ导入,写正则写到吐。后来自己用Elasticsearch拼了一套,每次加新来源就得改代码,维护起来真要命。如果这个工具真能统一处理不同数据源,那确实省事多了,准备试试看。

没用过别碰。

Mistral动作挺快,就是国内用起来体验一般

又出搜索套件,关键看检索质量和延迟,光有功能没用

Mistral这套搜索工具开源的话,自建检索的能省不少事