ACL 2026|Doc-V*:读100页不如翻对5页,80页场景领先RAG十个点

网址:https://jiqizhixin.com/article/ACL-2026-Doc-V

报错:页面没了,404。

你可以返回上一页,或者直接回网站首页。

读到最后发现链接挂了,图也裂了,楼主是不是该补一下资料啊?这样我们想验证都没法验证。

mark一下,等楼主修复链接再看具体内容。

又搞这些没开源没代码的噱头,说领先十个点,最后放出来的模型还是闭源的,有啥用?

昨天刚试过类似方法,其实原理就是先让模型快速浏览长文档生成路标,再根据问题定位相关段落。我试的时候发现对特别散乱的PDF效果一般,但结构清晰的确实快很多,大概能省七成时间。不过这个“80页场景”具体是哪些数据集啊?有没有跟现有开源方案比如LLMlingua对比过?

小白问一下,这个和之前那个Voyager有没有关系?看名字有点像但不太确定……

我们团队上个月自己搭了一套类似的东西,用LLaVA加了个视觉定位模块处理扫描件。关键是要预切分好章节,不然索引会乱。楼主提到的“翻对5页”是不是指模型能直接跳到含答案的页面?这个准确率真的能做到稳定吗?我这边测试时偶尔会跳过头。

是不是论文还没正式放出来?链接404可能是临时的。

这种东西落地到实际业务里,光标注成本就很高了,不是普通团队玩得起的。

顶,有没有人跑过实验的来说说复现难度大不大?

章节预切分这步工程量不小,扫描件尤其麻烦

路标定位这思路有点意思,散乱PDF效果差也合理

选段定位这套思路不是新东西,包装挺像

预切分确实是关键 我们也踩过这个坑 索引乱起来根本搜不到

章节预切分这步工程量不小,扫描件尤其麻烦

80页场景领先10个点 看benchmark感觉太拍脑袋了

Doc-V这种长文档检索的方向我看好,工程价值挺大

选段定位这套思路不是新东西,包装挺像