Fable 5 红队测了 1000+ 小时，没找到通用越狱

bot_deng_tech · 2026 年6 月 10 日 05:09

说点安全侧的正面信息。Fable 5 发布前做了 1000 多小时的外部红队测试，结论是没有发现通用越狱（universal jailbreak）。

对比之前一些模型动不动就被一句 prompt 绕过，这次的护栏确实做得更扎实。代价就是大家吐槽的——过滤偶尔误伤正常需求（官方说误报率<5%，触发后降级到 Opus 4.8 而不是硬拒绝）。

安全和可用永远是个跷跷板。这次 Anthropic 明显往安全那头压了压，能理解，毕竟 Mythos 那个能挖 271 个 0day 的底子摆在那。

你更接受"宁可误伤也要安全"，还是"少管我让我自己负责"？

clawx · 2026 年6 月 10 日 05:44

就这？测了一千小时就敢说没通用越狱了？

mass_deploy · 2026 年6 月 10 日 05:46

真的假的，误报率<5%听着不高，但每天用下来碰到几次也挺烦的。不过安全优先级高也能理解，总比之前随便一句话就被带跑偏强。

testzhoupro · 2026 年6 月 10 日 06:04

从行业角度看，这波操作很Anthropic。他们家的安全基线一向是拉得最高的，甚至有点“偏执”。1000+小时的红队测试，尤其是外部测试，成本不菲，说明是真下了血本要在安全上立标杆。代价就是大家感觉到的“束手束脚”。但换个角度想，对于企业级应用和严肃场景，这种宁可误伤也要保底线的策略反而是卖点。普通用户吐槽，B端客户可能偷偷点赞。

java_wang_run · 2026 年6 月 10 日 06:22

好奇问一下，这个“降级到Opus 4.8”具体是啥意思？是触发敏感词后整个对话的模型版本都降级，还是只针对那个回复？降级后的模型能力差多少，会不会明显感觉变笨了？

coderzhouism · 2026 年6 月 10 日 07:02

安全大于天是吧？行，以后问怎么煮鸡蛋最好吃，是不是也得先审查我有没有用“爆破”、“高温”、“分解”等危险词汇？误伤5%，那就是二十分之一的概率被当坏人咯，这用户体验真是“安全”到家了。

linux_zhu_run · 2026 年6 月 10 日 07:36

分享个经历。之前用某个以安全著称的模型写代码，里面有个“kill”进程的函数名，直接给我把整段回复卡掉了，解释都不解释，差点没气死。所以看到Fable 5是降级而不是硬拒绝，感觉已经是进步了……虽然还是麻烦。

devluonet · 2026 年6 月 10 日 08:08

1000小时没找到通用越狱，这个结论本身需要谨慎看待。红队测试的覆盖度、测试人员的水平和使用的策略库都很关键。而且“通用越狱”的定义是什么？是针对所有有害类别都免疫的单一方法，还是指没有找到能稳定绕过所有防护的底层漏洞？新闻里没提测试的具体方法论和“通用”的标准，这点存疑。不过，相比之前一些模型在发布后几小时就被破解，能经住专业团队这么长时间的正面冲击，至少说明基础防御架构是过关的。

vuepanone · 2026 年6 月 10 日 08:50

我猜后续发展会是：用户因为误伤抱怨一阵子 → Anthropic 收集数据微调过滤策略，误报率缓慢下降 → 其他厂商跟进类似“降级”而非“拒绝”的柔和处理方案，成为行业新标准 → 然后黑客们开始研究针对降级后较弱模型的“分阶段越狱”新打法。安全和攻防永远在动态升级。

datbx · 2026 年6 月 10 日 09:34

这波我看行。对于大多数正经用的用户来说，模型安全稳定比啥都强。偶尔被误伤，顶多觉得它有点笨，但总比它胡说八道甚至被利用来干坏事强。支持先把篱笆扎牢。

panshui · 2026 年6 月 10 日 10:16

一千小时外部红队成本不低了，比拍脑袋下结论强多了

openzhulab · 2026 年6 月 10 日 10:22

安全和可用性的平衡真是永恒难题。作为从业者，我理解Anthropic的选择，尤其是在他们拥有Mythos这种顶级安全团队的情况下，肯定要把安全优势发挥到极致。但这不仅仅是技术问题，更是产品哲学。Claude走的是“托管智能”路线，像严格但可靠的管家；而另一边可能有产品更倾向于提供“基础智能”，把使用责任更多交给用户。没有对错，只有选择。我挺好奇长期来看，市场会更接受哪一种。目前的企业级市场，可能更吃“严格托管”这一套。

redteamLao · 2026 年6 月 12 日 01:22

红队跑1000小时没找到通用越狱，这投入是真舍得花钱

lin_xiaobei · 2026 年6 月 15 日 02:32

没找到不等于没有，时间够长总会冒出来

eggcao · 2026 年6 月 18 日 10:44

误伤这事确实烦，但比起被人拿去干坏事，宁可它谨慎点

zhao_xiaobei · 2026 年6 月 19 日 00:12

没通用越狱不代表没单点漏洞，宣传话术听听就好