Fable 5 来了,SWE-Bench 跑出 80.3% 把我震到了

刚看到 Anthropic 今天发布 Claude Fable 5,说实话我以为又是正常迭代,结果一看基准测试直接傻眼了——

SWE-Bench Pro 拿了 80.3%,GPT-5.5 同测 58.6%,差距不是一点点。FrontierCode Diamond 这个顶级编程基准更离谱:Fable 5 跑了 29.3%,GPT-5.5 才 5.7%,这已经不是"略有优势",是量级差距了。

Stripe 官方说用它一天完成了一个本来要团队两个多月的 5000 万行代码迁移,CoreWeave CEO 说它"能以高级研究科学家的水准工作,自己选方向、分配资源、否定错误的思路"……

当然对我们普通用户来说感知最直接的还是:Claude Code 用 Fable 5 写代码到底爽不爽。有没有已经上手的?日常写代码这个差距明显吗?单次 session 能撑多久不跑偏?

就这?坐等实际使用反馈。

这波我看行!不过我更关心它对个人开发者免费额度够不够用,毕竟企业肯定舍得花钱。

SWE-Bench Pro 80.3%确实吓人,但得看看它具体在什么任务类型上强。是bug修复、功能实现还是代码重构?不同场景对日常开发影响差别很大。而且基准测试的环境太干净了,真实项目有乱七八糟的依赖和祖传屎山,模型会不会直接懵了。

从行业角度看,这不仅仅是模型能力的提升,更可能重塑研发流程。如果AI真能像新闻里说的那样“以高级研究科学家的水准工作”,那意味着技术决策和资源分配的部分逻辑都可以被优化。中小团队用上这种工具,或许能在特定领域快速拉平与大厂的技术代差。但随之而来的问题也很尖锐:对高级工程师的需求会不会结构性减少?代码知识产权的归属会更模糊。

真的假的?一天做完两个月的5000万行迁移?这得是多理想化的项目条件啊,没有历史债务?没有诡异的环境配置?没有那些只有离职老员工才懂的暗坑?我表示强烈怀疑。

分享个经历,我之前试用某个宣称很强的代码助手搞老旧Java项目升级,它给出的方案看起来完美,一跑起来各种jar包冲突、不兼容的API调用全出来了,最后还是得人工一点点抠。所以现在看到这种新闻,我先打个问号,benchmark分数高不等于能处理好现实世界的混沌。

好奇追问:新闻里说的“单次session能撑多久不跑偏”到底指什么?是上下文长度维持能力,还是在复杂任务中逻辑一致性的持续时间?这对实际生产力影响很大。

如果数据属实,那这已经不是“工具”的范畴了,更像是一个可以承担相当一部分研发职责的“数字同事”。预测一下后续:1. 各大云厂商会疯狂跟进,推出自己的“超级编码智能体”;2. 开源社区会努力复现或逼近这个能力,出现新的Llama级别的模型;3. 关于“AI生成代码的安全性与可靠性”会成为接下来业界争吵的焦点。软件开发的教育和招聘标准,可能在五年内发生根本性变化。

对于我们日常搬砖的来说,差距明显不明显,还得看它处理我司特有框架和山寨编程规范的能力。你让它写个标准CRUD或者LeetCode它肯定飞起,但要是对着我们自己写的、文档都没有的祖传核心模块说“给我加个新功能”,它能不跑偏才算真本事。我现在就关心API调用贵不贵。

哈哈,又来了,每次发布都像是“第四次工业革命”,用起来才发现还是得人工擦屁股。不过这次差距看起来确实大,希望别是特调数据。

最大的震撼点其实是FrontierCode Diamond那个29.3%对5.7%。这个基准专门考核前沿、复杂且需要深度推理的编程任务,近乎于研究级别的问题。如果Fable 5在这里的表现是真实的,那意味着AI不再只是辅助完成明确指令,而是具备了初步的“探索”和“规划”能力,可以处理目标明确但路径未知的开放式问题。这会让它在自动化测试生成、系统设计探索、性能瓶颈分析等非确定性领域发挥巨大作用。当然,现在欢呼可能还为时过早,需要等待更广泛、更严格的第三方测评,尤其是针对长周期、多步骤的真实世界软件工程任务的评估。

80.3确实猛,不过实际项目里能不能复现还得看

80.3确实猛,但榜单和自家项目差着十万八千里

对,得分清是修bug还是写新功能,差别大着呢