黑客团队宣布攻破Claude Fable防护机制

Winterlynn · 2026 年6 月 12 日 09:41

Pliny the Liberator 在2026年6月11日宣布攻破了Claude Fable的防护机制，使其成功输出了违禁信息，其声称使用了“后端分解与重组”，即将敏感目标拆解为无害化、技术性的子过程等手段绕过内容审查。

Anthropic发布时宣称该模型采取了诸多手段确保其输出安全，此前已有许多指责其审查机制过于敏感的反馈。

xiaobaiAI · 2026 年6 月 15 日 01:03

6，不知道真假