在WorkBuddy里用CNKI技能做文献检索的一点经验分享

在WorkBuddy里用CNKI技能做文献检索的一点经验分享

前言
我是做图书馆学研究的,日常大量时间花在知网查文献上。之前一直手工操作——打开知网、输关键词、翻页、一条条记下来,一套流程下来大半天就没了。

最近在WorkBuddy里装了一套CNKI相关的Skill(技能插件),试了一段时间,确实比纯手工快不少。分享一下我的实际使用感受和踩过的坑,供参考。

一、我装了哪些CNKI相关的Skill
技能名称

功能

我什么时候用它

cnki-search

关键词搜索论文

最常用,日常检索入口

cnki-advanced-search

多条件组合检索

需要精确筛选的时候

cnki-paper-detail

单篇信息提取

看中某篇想了解详情

cnki-journal-index

期刊级别查询

判断期刊质量

cnki-journal-toc

某期目录浏览

追踪某本期刊最新一期

cnki-navigate-pages

翻页/换排序

结果多需要逐页看

cnki-download

下载全文

需要读原文时

cnki-export

导出到Zotero

整理参考文献

cnki-parse-results

批量解析结果页

需要结构化数据

这些Skill的安装方式是在WorkBuddy里输入对应名称触发即可(比如 /cnki-search),首次使用会提示配置浏览器自动化环境。

二、几个实际场景
场景1:基础检索
我一般直接说一句话,比如:“帮我在CNKI搜2024到2026年CSSCI核心期刊里关于智慧图书馆空间建设的论文”。

它会自动调检索接口,返回一个表格化的结果,包含标题、作者、期刊、年份这些基本信息。比自己在网页上一页页翻方便不少。

场景2:判断期刊质量
搜到一堆论文后,不确定目标期刊够不够格,我会说:“查一下《图书情报知识》是不是核心期刊”。

调用cnki-journal-index后能看到北大核心/CSSCI等收录情况。这个对我筛选投稿目标挺有用的。

场景3:导出归档
确定要用的文献之后,可以一口气说:“把第1、3、5、7篇导出到Zotero”。它会自动抓元数据并导入。不过这个功能需要提前配好Zotero的环境。

三、几个小体会
检索式越具体越好。

模糊地说"帮我找一些关于图书馆的论文",结果会非常多且杂。不如直接限定时间范围、期刊级别、主题词组合,这样后面筛的工作量小很多。

分批操作比较稳。

一次处理太多条目有时候会卡住或者触发反爬机制。我的习惯是每批控制在20-30篇以内,分几次做。

先粗筛再细看。

先用关键词做一轮宽泛搜索锁定大致范围,再用高级检索逐步收窄,最后对少数几篇做详细阅读。这个顺序比一上来就精检效率更高。

四、遇到的一些问题
首次使用需要配置Chrome MCP,不然浏览器自动化跑不起来。配置文件在 ~/.workbuddy/mcp.json,具体方法看WorkBuddy文档。

知网偶尔会弹验证码,这时候Skill会停下来等你手动过一下。

下载全文功能需要你的知网账号处于登录状态。

大批量导出建议分批做,一次性超过30篇容易触发限制。

总结
总的来说,这套Skill把"检索-筛选-判断-导出"这条链路串起来了,中间不用频繁切窗口手动搬运数据。对于经常需要批量查文献的场景,确实能省不少手工劳动的时间。

当然它也不是万能的——复杂的高级检索式有时候还是需要自己手写,有些特殊数据库也不支持。但在常规的中文文献检索流程中,作为一个辅助工具还是挺好用的。

以上是我个人的使用感受,欢迎大家交流讨论。

本文仅代表个人使用体验,不涉及任何商业推广。

感觉你像workbuddy的广子啊 :rofl:

1 个赞

问一下,你们批量导入的题录里面很多是重复的吧,Agent去重靠谱吗?我之前试过一次它把一篇论文的中文版和英文版当成两篇保留了。

回楼上的术语问题,这个坑我也踩过。后来我在system prompt里加了一段:

处理中文学术文献时,所有专业术语(理论名、方法名、核心概念)必须保留中文原文,如需英文对照请在括号中附加官方译法或作者原文用词。禁止自主翻译。

加完之后基本没再翻车。

另外补充一个点:做文献综述的时候,Agent给的"文献间观点分歧"经常是幻觉,它会把两篇其实观点一致的文章硬说成分歧。我现在的习惯是让它把每个"分歧点"对应的原文引文段落贴出来,我自己核对,确认过的才纳入综述。这个额外的人工复核成本不高,但能拦住大部分幻觉。

问一下,你们让Agent处理中文文献的时候,它对专业术语翻译靠谱吗?我之前让它总结一篇讲"合法性"的管理学论文,它给翻成了legality,实际应该是legitimacy,整个摘要意思就跑偏了。后来我都要求它保留术语原文不翻译。

说点不一样的角度吧。我现在反而有点警惕对这类工具的过度依赖。

我导师带过一个师弟,开题之前综述写得飞起,各种理论框架、学派分歧、研究gap张口就来——但真让他讲他引的某篇论文具体做了什么实验、数据怎么来的、作者为什么选这个方法,他就支支吾吾。后来发现他全程Agent出综述,自己只看了摘要。

这种"综述"短期看很高效,但那种扎实读20篇经典文献建立起来的领域sense,是工具给不了的。尤其做博士,有时候你研究的创新点就藏在某个不起眼的方法论注脚里,Agent的summary是会漏掉这种细节的。

所以我个人的用法比较克制:核心文献必须自己精读,边缘文献让Agent做初筛和归类。不能倒过来。

楼主做综述的时候可以自己把握一下这个度。工具是真好用,但别让它替你想。

我做社科的,跟你情况有点像。除了知网,还要跑Web of Science、Scopus、还有一些中文学位论文库。我自己这半年下来用WorkBuddy的体会是:

知网这种带验证码和动态token的站,直接让Agent去抓确实不太靠谱。我后来换了个思路——让Agent读我已经导出的RIS/NoteExpress文件,而不是让它自己去检索。

具体做法就是自己在知网检索式搞对了(这步机器代替不了,检索策略本身就是文献综述的一部分),一次性把200-500条题录导出来,然后让Agent做去重、分主题聚类、标引相关度。这个阶段它是真的好使,比我以前用EndNote自己归类快多了。

Web of Science的API其实是开放的(如果你学校买了访问权),让Agent直接调接口比抓网页稳定得多。知网这块我没找到干净的解法,如果你找到了记得回来分享。

1 个赞

回楼上的去重问题。

中英文版本算同一篇还是不同篇,这个其实是你prompt定义的问题——你没告诉它,它默认按DOI/标题完全相同判重,那肯定分不出。

我的做法是让Agent做两轮:

  1. 第一轮硬去重(DOI相同、标题完全匹配)
  2. 第二轮让它标记"可能是同一研究的中英文对照版",不自动删,而是打个tag给我看

然后Zotero本身也有个"重复条目"面板,结合着用基本能兜住。别指望一把梭搞定。

说一个楼上没怎么提的角度——把Agent当做"语义层"而不是"抓取层"用

我们实验室现在的做法是:

  • 知网、万方、维普这些库的下载动作全部人工完成(学校校园网直接下),每周集中花半小时导一批PDF进来
  • PDF进来之后,用Agent批量做三件事:
    1. 提取文献的研究问题、假设、方法、样本、主要发现、局限
    2. 按我们课题组维护的一个schema(大概20个字段)结构化写入一个SQLite
    3. 打上跨文献的关联tag(引用了XX经典文献的、用了XX方法的)

有了这个结构化层之后,再问Agent类似"给我找一下2020年后用fsQCA方法研究数字平台治理的文献",它直接查库秒回,而且我们自己做元分析也方便。

关键洞察:Agent在"非结构化→结构化"这一跳上的生产力是碾压性的,但在"给我去上网搜"这一跳上目前还很拉垮。 你把任务划清楚,它才好用。

知网检索本身的困难不是Agent的问题,是那些库反爬做得太狠,加上很多字段根本不开放API。让它去硬刚这些系统属于错配。

Zotero配合Agent用起来才是真香,知网直接让它抓就是找罪受,验证码一弹全白搭。

楼上几位说的都对,我补充一点具体的检索式层面的经验。

知网的"高级检索"里,主题、篇关摘、关键词三个字段差别挺大的。做综述的时候我一般:

  • 先用"主题"字段+宽泛词快速扫一遍看领域大概什么样
  • 再用"篇关摘"+精准词组合做主力检索
  • 最后用"关键词"字段+领域公认术语兜底查漏

Agent对这三个字段的差别基本是懵的,你让它写检索式它默认就给你拼个"主题=xxx"完事。这就是为什么很多人觉得Agent出的检索式不好用,不是Agent不行,是它不了解平台逻辑。

所以我现在是自己写检索式、自己导数据、交给Agent做下游处理。分工明确了之后效率才上来。

笑死,知网那个验证码我手动点都经常识别不出来,更别说机器了。让Agent硬刚这个属于是电子对抗。

分享一下我这大半年摸出来的工作流,博一,做交叉学科的,文献量真的吃不消,不靠工具早废了。

第一层:检索
这一步我不交给Agent。知网、Web of Science、Google Scholar,不同库的检索式语法不一样,主题词和副主题词的关系也不一样,这个得自己根据研究问题调。Agent给的检索式我试过,有时候给出的词组根本不是领域里通用的表述,查出来的文献偏得离谱。

第二层:管理
Zotero + Better BibTeX。每次检索完把题录批量导入Zotero,按项目打标签。这个工作Agent能帮上忙——我把PDF全扔给Agent,让它按照我给的"方法论 / 理论框架 / 实证结果"三维度打tag,然后回填到Zotero的notes里。

第三层:综述
这里才是WorkBuddy这种Agent真正出力的地方。我现在的流程是:

  1. 按主题把20-30篇相关文献的PDF丢给它
  2. 让它按"核心论点-证据-局限性"的结构先做single paper summary
  3. 再跨论文做主题聚类,找出哪些论点是共识、哪些有分歧、哪些是gap
  4. 最后我自己根据这个骨架写综述,引用格式让Zotero出

整套下来比我原来纯手动快至少3-4倍,关键是不容易漏。

顺带一提,如果你对token开销敏感(我跑一次大综述轻松几百万token),可以试试当贝Molili,国内版OpenClaw的皮,官方说法是token消耗能降50%左右,我自己测下来做大批量文献处理这种场景,确实省了不少,质量跟原版差别不大。对学生党算是比较友好的。

工具归工具,研究还是得自己想明白问题是什么。别指望Agent替你做综述,它只是把你原本要花3天的苦力活压缩到半天而已。

是的,我也觉得您这边的方法比较好,是需要给agent一个相对来说小的范围,不然综合的信息会有幻觉。

对,压缩的出来的时间我们再去忙别的 :joy:

这个警告有点扎心,工具辅助和真懂之间的鸿沟别忽视

去重那个坑我也踩过,后来在prompt里加了以doi为准这条规则,误判少了很多

CNKI那个验证码机器绕不过,只能半手动半自动用,理解

图书馆学的人在这里哈哈,你们那边知网账号好申请吗,我校外的