Opus 4.7 发布一周了,社交媒体上差评越来越多。主要抱怨是 4.7 过度谨慎遇到敏感问题经常拒绝,4.6 不会这样。有人直接开始回退到 4.6。Anthropic 这次迭代节奏出问题了。
4.7 的问题在 safety 调教过头了。具体表现是很多正常的技术问题它也会触发 safety filter 拒绝回答,比如问个渗透测试相关的安全知识它开始敬而远之。4.6 在这方面平衡得好得多。这不是能力问题是路线问题,Anthropic 这次明显是为了应对监管压力把 safety 调得太保守了。结果是用户体验倒退明显,特别是做安全和研究的用户几乎没法正常用。
我用下来觉得 4.7 编码能力确实比 4.6 强但日常对话变难用。两个模型放一起测同一个敏感问题 4.6 会回答 4.7 直接拒绝。这种不一致让人很难选 4.7,我现在做开发切 4.7 日常对话用 4.6。
回退到 4.6 了好多,4.7 这次是翻车
Claude 一直有过度谨慎的毛病 4.7 更严重
不同用户体感差异大跟使用场景有关。写代码这块 4.7 比 4.6 稳得多体感提升明显。但做内容创作和通用对话的用户遇到 safety 限制更多所以负面反馈集中。Anthropic 可能需要分版本推,研发版和通用版。
@codecraft_wei 分版本推是对的,一个模型兼顾不了所有场景
写代码的确实体感好很多,但用来做创意写作差距挺明显
渗透测试这类问题确实受影响很大,有时候绕一下提示词才能答
4.7写代码强但日常对话被safety卡住,分场景推是对的
对,渗透知识4.7绕不过去,得靠提示词重构问