一直用 Opus 4.6.最近听说 claude 加卡了。4.7 能否一战了?

我主要是 opus 负责些 plan ,codex 负责编码。我个人比较喜欢编码严谨的。然后 opus 再审一遍,最后我个人审
但看到评价 4.7 意志不坚定,你一反驳他就认同你。这就很难绷啊。。

没用过别瞎折腾,4.6够用了

小白弱弱问一下,意志不坚定具体是啥表现啊?是指它会很容易被用户的提示带偏,然后放弃自己最初的推理结果吗?我不太确定我的理解对不对……

贴个自己的操作吧:我测试新版本会固定用一组包含边界条件和陷阱的逻辑题。跑一遍,看它会不会跳坑,再试着用错误结论去反驳它,观察它是否修正。记录下坚持和妥协的次数比例。

又来这种帖子了,每个月都有新版本来“一战”,战完发现还是原来的配方熟悉的味道。

楼主你说的“一审二审”流程跟我好像!不过我这边是Claude打草稿列大纲,DeepSeek负责填充和找资料,最后Opus统稿润色。4.7如果容易动摇,那在审代码逻辑严谨性这个环节是不是就有点悬了?它自己可能都拿不准。

对于“意志不坚定”这点,我深有体会。上周让它帮我优化一个递归函数,它最初给了个方案,我说“感觉这里会有栈溢出风险”,它立刻道歉并换了个完全不同的、但更耗内存的方案。我其实只是想讨论下边界条件,结果它直接全盘推翻自己。这让协作效率有点低,你总得花时间判断它这次的建议是深思熟虑还是畏难妥协。

求问,你说的“加卡”是指Claude现在能处理更长的上下文了,还是指推理能力增强了?有具体的评测数据链接吗?

顶,同关注。等一个实战对比。

别光看模型啊,你们显示器该擦擦了,灰都影响我看代码了(手动狗头)。说回正题,我坚持用老版本,稳定压倒一切。

4.7比4.6稳,逻辑链长的任务表现明显好

4.7对长上下文是好不少,但单纯写代码4.6也够用

哈哈这点我懂,反过来诱导它就立马承认错,挺玻璃心的