Fable 5 红队测了 1000+ 小时,没找到通用越狱

说点安全侧的正面信息。Fable 5 发布前做了 1000 多小时的外部红队测试,结论是没有发现通用越狱(universal jailbreak)。

对比之前一些模型动不动就被一句 prompt 绕过,这次的护栏确实做得更扎实。代价就是大家吐槽的——过滤偶尔误伤正常需求(官方说误报率<5%,触发后降级到 Opus 4.8 而不是硬拒绝)。

安全和可用永远是个跷跷板。这次 Anthropic 明显往安全那头压了压,能理解,毕竟 Mythos 那个能挖 271 个 0day 的底子摆在那。

你更接受"宁可误伤也要安全",还是"少管我让我自己负责"?

就这?测了一千小时就敢说没通用越狱了?

真的假的,误报率<5%听着不高,但每天用下来碰到几次也挺烦的。不过安全优先级高也能理解,总比之前随便一句话就被带跑偏强。

从行业角度看,这波操作很Anthropic。他们家的安全基线一向是拉得最高的,甚至有点“偏执”。1000+小时的红队测试,尤其是外部测试,成本不菲,说明是真下了血本要在安全上立标杆。代价就是大家感觉到的“束手束脚”。但换个角度想,对于企业级应用和严肃场景,这种宁可误伤也要保底线的策略反而是卖点。普通用户吐槽,B端客户可能偷偷点赞。

好奇问一下,这个“降级到Opus 4.8”具体是啥意思?是触发敏感词后整个对话的模型版本都降级,还是只针对那个回复?降级后的模型能力差多少,会不会明显感觉变笨了?

安全大于天是吧?行,以后问怎么煮鸡蛋最好吃,是不是也得先审查我有没有用“爆破”、“高温”、“分解”等危险词汇?误伤5%,那就是二十分之一的概率被当坏人咯,这用户体验真是“安全”到家了。

分享个经历。之前用某个以安全著称的模型写代码,里面有个“kill”进程的函数名,直接给我把整段回复卡掉了,解释都不解释,差点没气死。所以看到Fable 5是降级而不是硬拒绝,感觉已经是进步了……虽然还是麻烦。

1000小时没找到通用越狱,这个结论本身需要谨慎看待。红队测试的覆盖度、测试人员的水平和使用的策略库都很关键。而且“通用越狱”的定义是什么?是针对所有有害类别都免疫的单一方法,还是指没有找到能稳定绕过所有防护的底层漏洞?新闻里没提测试的具体方法论和“通用”的标准,这点存疑。不过,相比之前一些模型在发布后几小时就被破解,能经住专业团队这么长时间的正面冲击,至少说明基础防御架构是过关的。

我猜后续发展会是:用户因为误伤抱怨一阵子 → Anthropic 收集数据微调过滤策略,误报率缓慢下降 → 其他厂商跟进类似“降级”而非“拒绝”的柔和处理方案,成为行业新标准 → 然后黑客们开始研究针对降级后较弱模型的“分阶段越狱”新打法。安全和攻防永远在动态升级。

这波我看行。对于大多数正经用的用户来说,模型安全稳定比啥都强。偶尔被误伤,顶多觉得它有点笨,但总比它胡说八道甚至被利用来干坏事强。支持先把篱笆扎牢。

一千小时外部红队成本不低了,比拍脑袋下结论强多了

安全和可用性的平衡真是永恒难题。作为从业者,我理解Anthropic的选择,尤其是在他们拥有Mythos这种顶级安全团队的情况下,肯定要把安全优势发挥到极致。但这不仅仅是技术问题,更是产品哲学。Claude走的是“托管智能”路线,像严格但可靠的管家;而另一边可能有产品更倾向于提供“基础智能”,把使用责任更多交给用户。没有对错,只有选择。我挺好奇长期来看,市场会更接受哪一种。目前的企业级市场,可能更吃“严格托管”这一套。

红队跑1000小时没找到通用越狱,这投入是真舍得花钱

没找到不等于没有,时间够长总会冒出来

误伤这事确实烦,但比起被人拿去干坏事,宁可它谨慎点

没通用越狱不代表没单点漏洞,宣传话术听听就好