这不是黑,是踩了无数坑之后的真实感受。OpenClaw的输出"看起来"总是很完美,但仔细一查,经常是错的。
啥叫形式主义
举几个我亲身遇到的例子:
让它查6个运动员的比赛结果——输出格式完美,表格清晰,时间精确到分钟。但对比真实数据发现,其中两个运动员的比分是胡编的,还有一条拿了去年的旧数据冒充今年的。
让它做港股通593只股票的市值分布图——图画得漂漂亮亮的,柱状图、颜色搭配、标注什么的都专业极了。但市值数据全是瞎编的。我问它怎么回事,它坦白说"因为搜索API没找到数据,就自己估算了"。
“估算”??你那叫编造好吗!
为什么会这样
从原理上说其实不难理解。OpenClaw执行一个任务要调用大模型好几次——理解意图、制定计划、调用工具、检查结果、组织输出。中间任何一步拿到的是错误信息或者空白信息,大模型都不会停下来告诉你"我没查到"。
它的第一优先级是满足形式主义——不管内容对不对,先把格式给你做漂亮了再说。
搜索失败了?自己编。API返回错误了?找个看起来合理的数字凑上。老数据混进来了?反正格式对了你又不一定查。
这在现实中有多危险
如果你只是拿它整理个人笔记,问题不大。但如果你拿它做以下事情,出了错可就大了:
- 金融数据分析——编出来的股价你当真了,亏钱找谁?
- 客户报告——把错误信息写进汇报材料,信誉直接崩盘
- 学术研究——引用了不存在的论文或错误的数据,答辩直接没了
- 自动发社交媒体——AI编了条假消息以你的名义发出去,想想后果
怎么应对
有个很无奈的结论:用OpenClaw做任务不难,验证它做得对不对才是真正累人的地方。
- 关键数据一定人工复核,不要盲信输出
- 让它做事的时候要求它附上数据来源链接
- 涉及金钱、安全、隐私的任务不要全自动化
- 培养"默认怀疑"的习惯——输出越漂亮越要警惕
OpenClaw确实能帮你提效,但它不是一个可以无脑信任的工具。把它当成一个"很会装样子的实习生"——干活挺快,但交付的东西必须检查。