Fable 5 来了，SWE-Bench 跑出 80.3% 把我震到了

ai_tansuo · 2026 年6 月 10 日 04:42

刚看到 Anthropic 今天发布 Claude Fable 5，说实话我以为又是正常迭代，结果一看基准测试直接傻眼了——

SWE-Bench Pro 拿了 80.3%，GPT-5.5 同测 58.6%，差距不是一点点。FrontierCode Diamond 这个顶级编程基准更离谱：Fable 5 跑了 29.3%，GPT-5.5 才 5.7%，这已经不是"略有优势"，是量级差距了。

Stripe 官方说用它一天完成了一个本来要团队两个多月的 5000 万行代码迁移，CoreWeave CEO 说它"能以高级研究科学家的水准工作，自己选方向、分配资源、否定错误的思路"……

当然对我们普通用户来说感知最直接的还是：Claude Code 用 Fable 5 写代码到底爽不爽。有没有已经上手的？日常写代码这个差距明显吗？单次 session 能撑多久不跑偏？

defi_debugger · 2026 年6 月 10 日 05:26

就这？坐等实际使用反馈。

mengmeng_qa · 2026 年6 月 10 日 05:36

这波我看行！不过我更关心它对个人开发者免费额度够不够用，毕竟企业肯定舍得花钱。

pyligo · 2026 年6 月 10 日 05:44

SWE-Bench Pro 80.3%确实吓人，但得看看它具体在什么任务类型上强。是bug修复、功能实现还是代码重构？不同场景对日常开发影响差别很大。而且基准测试的环境太干净了，真实项目有乱七八糟的依赖和祖传屎山，模型会不会直接懵了。

neoyuantech · 2026 年6 月 10 日 06:14

从行业角度看，这不仅仅是模型能力的提升，更可能重塑研发流程。如果AI真能像新闻里说的那样“以高级研究科学家的水准工作”，那意味着技术决策和资源分配的部分逻辑都可以被优化。中小团队用上这种工具，或许能在特定领域快速拉平与大厂的技术代差。但随之而来的问题也很尖锐：对高级工程师的需求会不会结构性减少？代码知识产权的归属会更模糊。

prompt_engineer_p · 2026 年6 月 10 日 06:28

真的假的？一天做完两个月的5000万行迁移？这得是多理想化的项目条件啊，没有历史债务？没有诡异的环境配置？没有那些只有离职老员工才懂的暗坑？我表示强烈怀疑。

sprkx · 2026 年6 月 10 日 06:56

分享个经历，我之前试用某个宣称很强的代码助手搞老旧Java项目升级，它给出的方案看起来完美，一跑起来各种jar包冲突、不兼容的API调用全出来了，最后还是得人工一点点抠。所以现在看到这种新闻，我先打个问号，benchmark分数高不等于能处理好现实世界的混沌。

botduist · 2026 年6 月 10 日 07:44

好奇追问：新闻里说的“单次session能撑多久不跑偏”到底指什么？是上下文长度维持能力，还是在复杂任务中逻辑一致性的持续时间？这对实际生产力影响很大。

toolssuhq · 2026 年6 月 10 日 08:08

如果数据属实，那这已经不是“工具”的范畴了，更像是一个可以承担相当一部分研发职责的“数字同事”。预测一下后续：1. 各大云厂商会疯狂跟进，推出自己的“超级编码智能体”；2. 开源社区会努力复现或逼近这个能力，出现新的Llama级别的模型；3. 关于“AI生成代码的安全性与可靠性”会成为接下来业界争吵的焦点。软件开发的教育和招聘标准，可能在五年内发生根本性变化。

yc_reject_2025 · 2026 年6 月 10 日 08:48

对于我们日常搬砖的来说，差距明显不明显，还得看它处理我司特有框架和山寨编程规范的能力。你让它写个标准CRUD或者LeetCode它肯定飞起，但要是对着我们自己写的、文档都没有的祖传核心模块说“给我加个新功能”，它能不跑偏才算真本事。我现在就关心API调用贵不贵。

token_burner_9000 · 2026 年6 月 10 日 09:32

哈哈，又来了，每次发布都像是“第四次工业革命”，用起来才发现还是得人工擦屁股。不过这次差距看起来确实大，希望别是特调数据。

secchentech · 2026 年6 月 10 日 10:28

最大的震撼点其实是FrontierCode Diamond那个29.3%对5.7%。这个基准专门考核前沿、复杂且需要深度推理的编程任务，近乎于研究级别的问题。如果Fable 5在这里的表现是真实的，那意味着AI不再只是辅助完成明确指令，而是具备了初步的“探索”和“规划”能力，可以处理目标明确但路径未知的开放式问题。这会让它在自动化测试生成、系统设计探索、性能瓶颈分析等非确定性领域发挥巨大作用。当然，现在欢呼可能还为时过早，需要等待更广泛、更严格的第三方测评，尤其是针对长周期、多步骤的真实世界软件工程任务的评估。

swebench_q · 2026 年6 月 11 日 13:54

80.3确实猛，不过实际项目里能不能复现还得看

probe_lu · 2026 年6 月 12 日 15:10

80.3确实猛，但榜单和自家项目差着十万八千里

benchzhao · 2026 年6 月 20 日 03:22

对，得分清是修bug还是写新功能，差别大着呢