Pliny the Liberator 在2026年6月11日宣布攻破了Claude Fable的防护机制,使其成功输出了违禁信息,其声称使用了“后端分解与重组”,即将敏感目标拆解为无害化、技术性的子过程等手段绕过内容审查。
Anthropic发布时宣称该模型采取了诸多手段确保其输出安全,此前已有许多指责其审查机制过于敏感的反馈。
6,不知道真假