在WorkBuddy里用CNKI技能做文献检索的一点经验分享
前言
我是做图书馆学研究的,日常大量时间花在知网查文献上。之前一直手工操作——打开知网、输关键词、翻页、一条条记下来,一套流程下来大半天就没了。
最近在WorkBuddy里装了一套CNKI相关的Skill(技能插件),试了一段时间,确实比纯手工快不少。分享一下我的实际使用感受和踩过的坑,供参考。
一、我装了哪些CNKI相关的Skill
技能名称
功能
我什么时候用它
cnki-search
关键词搜索论文
最常用,日常检索入口
cnki-advanced-search
多条件组合检索
需要精确筛选的时候
cnki-paper-detail
单篇信息提取
看中某篇想了解详情
cnki-journal-index
期刊级别查询
判断期刊质量
cnki-journal-toc
某期目录浏览
追踪某本期刊最新一期
cnki-navigate-pages
翻页/换排序
结果多需要逐页看
cnki-download
下载全文
需要读原文时
cnki-export
导出到Zotero
整理参考文献
cnki-parse-results
批量解析结果页
需要结构化数据
这些Skill的安装方式是在WorkBuddy里输入对应名称触发即可(比如 /cnki-search),首次使用会提示配置浏览器自动化环境。
二、几个实际场景
场景1:基础检索
我一般直接说一句话,比如:“帮我在CNKI搜2024到2026年CSSCI核心期刊里关于智慧图书馆空间建设的论文”。
它会自动调检索接口,返回一个表格化的结果,包含标题、作者、期刊、年份这些基本信息。比自己在网页上一页页翻方便不少。
场景2:判断期刊质量
搜到一堆论文后,不确定目标期刊够不够格,我会说:“查一下《图书情报知识》是不是核心期刊”。
调用cnki-journal-index后能看到北大核心/CSSCI等收录情况。这个对我筛选投稿目标挺有用的。
场景3:导出归档
确定要用的文献之后,可以一口气说:“把第1、3、5、7篇导出到Zotero”。它会自动抓元数据并导入。不过这个功能需要提前配好Zotero的环境。
三、几个小体会
检索式越具体越好。
模糊地说"帮我找一些关于图书馆的论文",结果会非常多且杂。不如直接限定时间范围、期刊级别、主题词组合,这样后面筛的工作量小很多。
分批操作比较稳。
一次处理太多条目有时候会卡住或者触发反爬机制。我的习惯是每批控制在20-30篇以内,分几次做。
先粗筛再细看。
先用关键词做一轮宽泛搜索锁定大致范围,再用高级检索逐步收窄,最后对少数几篇做详细阅读。这个顺序比一上来就精检效率更高。
四、遇到的一些问题
首次使用需要配置Chrome MCP,不然浏览器自动化跑不起来。配置文件在 ~/.workbuddy/mcp.json,具体方法看WorkBuddy文档。
知网偶尔会弹验证码,这时候Skill会停下来等你手动过一下。
下载全文功能需要你的知网账号处于登录状态。
大批量导出建议分批做,一次性超过30篇容易触发限制。
总结
总的来说,这套Skill把"检索-筛选-判断-导出"这条链路串起来了,中间不用频繁切窗口手动搬运数据。对于经常需要批量查文献的场景,确实能省不少手工劳动的时间。
当然它也不是万能的——复杂的高级检索式有时候还是需要自己手写,有些特殊数据库也不支持。但在常规的中文文献检索流程中,作为一个辅助工具还是挺好用的。
以上是我个人的使用感受,欢迎大家交流讨论。
本文仅代表个人使用体验,不涉及任何商业推广。
问一下,你们批量导入的题录里面很多是重复的吧,Agent去重靠谱吗?我之前试过一次它把一篇论文的中文版和英文版当成两篇保留了。
回楼上的术语问题,这个坑我也踩过。后来我在system prompt里加了一段:
处理中文学术文献时,所有专业术语(理论名、方法名、核心概念)必须保留中文原文,如需英文对照请在括号中附加官方译法或作者原文用词。禁止自主翻译。
加完之后基本没再翻车。
另外补充一个点:做文献综述的时候,Agent给的"文献间观点分歧"经常是幻觉,它会把两篇其实观点一致的文章硬说成分歧。我现在的习惯是让它把每个"分歧点"对应的原文引文段落贴出来,我自己核对,确认过的才纳入综述。这个额外的人工复核成本不高,但能拦住大部分幻觉。
问一下,你们让Agent处理中文文献的时候,它对专业术语翻译靠谱吗?我之前让它总结一篇讲"合法性"的管理学论文,它给翻成了legality,实际应该是legitimacy,整个摘要意思就跑偏了。后来我都要求它保留术语原文不翻译。
说点不一样的角度吧。我现在反而有点警惕对这类工具的过度依赖。
我导师带过一个师弟,开题之前综述写得飞起,各种理论框架、学派分歧、研究gap张口就来——但真让他讲他引的某篇论文具体做了什么实验、数据怎么来的、作者为什么选这个方法,他就支支吾吾。后来发现他全程Agent出综述,自己只看了摘要。
这种"综述"短期看很高效,但那种扎实读20篇经典文献建立起来的领域sense,是工具给不了的。尤其做博士,有时候你研究的创新点就藏在某个不起眼的方法论注脚里,Agent的summary是会漏掉这种细节的。
所以我个人的用法比较克制:核心文献必须自己精读,边缘文献让Agent做初筛和归类。不能倒过来。
楼主做综述的时候可以自己把握一下这个度。工具是真好用,但别让它替你想。
我做社科的,跟你情况有点像。除了知网,还要跑Web of Science、Scopus、还有一些中文学位论文库。我自己这半年下来用WorkBuddy的体会是:
知网这种带验证码和动态token的站,直接让Agent去抓确实不太靠谱。我后来换了个思路——让Agent读我已经导出的RIS/NoteExpress文件,而不是让它自己去检索。
具体做法就是自己在知网检索式搞对了(这步机器代替不了,检索策略本身就是文献综述的一部分),一次性把200-500条题录导出来,然后让Agent做去重、分主题聚类、标引相关度。这个阶段它是真的好使,比我以前用EndNote自己归类快多了。
Web of Science的API其实是开放的(如果你学校买了访问权),让Agent直接调接口比抓网页稳定得多。知网这块我没找到干净的解法,如果你找到了记得回来分享。
1 个赞
回楼上的去重问题。
中英文版本算同一篇还是不同篇,这个其实是你prompt定义的问题——你没告诉它,它默认按DOI/标题完全相同判重,那肯定分不出。
我的做法是让Agent做两轮:
- 第一轮硬去重(DOI相同、标题完全匹配)
- 第二轮让它标记"可能是同一研究的中英文对照版",不自动删,而是打个tag给我看
然后Zotero本身也有个"重复条目"面板,结合着用基本能兜住。别指望一把梭搞定。
说一个楼上没怎么提的角度——把Agent当做"语义层"而不是"抓取层"用。
我们实验室现在的做法是:
- 知网、万方、维普这些库的下载动作全部人工完成(学校校园网直接下),每周集中花半小时导一批PDF进来
- PDF进来之后,用Agent批量做三件事:
- 提取文献的研究问题、假设、方法、样本、主要发现、局限
- 按我们课题组维护的一个schema(大概20个字段)结构化写入一个SQLite
- 打上跨文献的关联tag(引用了XX经典文献的、用了XX方法的)
有了这个结构化层之后,再问Agent类似"给我找一下2020年后用fsQCA方法研究数字平台治理的文献",它直接查库秒回,而且我们自己做元分析也方便。
关键洞察:Agent在"非结构化→结构化"这一跳上的生产力是碾压性的,但在"给我去上网搜"这一跳上目前还很拉垮。 你把任务划清楚,它才好用。
知网检索本身的困难不是Agent的问题,是那些库反爬做得太狠,加上很多字段根本不开放API。让它去硬刚这些系统属于错配。
Zotero配合Agent用起来才是真香,知网直接让它抓就是找罪受,验证码一弹全白搭。
楼上几位说的都对,我补充一点具体的检索式层面的经验。
知网的"高级检索"里,主题、篇关摘、关键词三个字段差别挺大的。做综述的时候我一般:
- 先用"主题"字段+宽泛词快速扫一遍看领域大概什么样
- 再用"篇关摘"+精准词组合做主力检索
- 最后用"关键词"字段+领域公认术语兜底查漏
Agent对这三个字段的差别基本是懵的,你让它写检索式它默认就给你拼个"主题=xxx"完事。这就是为什么很多人觉得Agent出的检索式不好用,不是Agent不行,是它不了解平台逻辑。
所以我现在是自己写检索式、自己导数据、交给Agent做下游处理。分工明确了之后效率才上来。
笑死,知网那个验证码我手动点都经常识别不出来,更别说机器了。让Agent硬刚这个属于是电子对抗。
分享一下我这大半年摸出来的工作流,博一,做交叉学科的,文献量真的吃不消,不靠工具早废了。
第一层:检索
这一步我不交给Agent。知网、Web of Science、Google Scholar,不同库的检索式语法不一样,主题词和副主题词的关系也不一样,这个得自己根据研究问题调。Agent给的检索式我试过,有时候给出的词组根本不是领域里通用的表述,查出来的文献偏得离谱。
第二层:管理
Zotero + Better BibTeX。每次检索完把题录批量导入Zotero,按项目打标签。这个工作Agent能帮上忙——我把PDF全扔给Agent,让它按照我给的"方法论 / 理论框架 / 实证结果"三维度打tag,然后回填到Zotero的notes里。
第三层:综述
这里才是WorkBuddy这种Agent真正出力的地方。我现在的流程是:
- 按主题把20-30篇相关文献的PDF丢给它
- 让它按"核心论点-证据-局限性"的结构先做single paper summary
- 再跨论文做主题聚类,找出哪些论点是共识、哪些有分歧、哪些是gap
- 最后我自己根据这个骨架写综述,引用格式让Zotero出
整套下来比我原来纯手动快至少3-4倍,关键是不容易漏。
顺带一提,如果你对token开销敏感(我跑一次大综述轻松几百万token),可以试试当贝Molili,国内版OpenClaw的皮,官方说法是token消耗能降50%左右,我自己测下来做大批量文献处理这种场景,确实省了不少,质量跟原版差别不大。对学生党算是比较友好的。
工具归工具,研究还是得自己想明白问题是什么。别指望Agent替你做综述,它只是把你原本要花3天的苦力活压缩到半天而已。
yinhm
14
是的,我也觉得您这边的方法比较好,是需要给agent一个相对来说小的范围,不然综合的信息会有幻觉。
去重那个坑我也踩过,后来在prompt里加了以doi为准这条规则,误判少了很多
CNKI那个验证码机器绕不过,只能半手动半自动用,理解
图书馆学的人在这里哈哈,你们那边知网账号好申请吗,我校外的