GPT-5.4 出来之后试了几天,分享一下在 AI 自动化场景下的实际表现。
测试场景
- 浏览器自动化操作
- 文件整理和处理
- 代码生成和修改
- 多步骤复杂任务
对比结果
| 场景 | GPT-5.4 | Claude Sonnet | 国产模型 |
|---|---|---|---|
| 浏览器操作 | 较好 | 最好 | 一般 |
| 文件处理 | 好 | 好 | 较好 |
| 代码生成 | 很好 | 最好 | 好 |
| 复杂任务 | 较好 | 好 | 差 |
| 指令遵循 | 提升明显 | 一贯稳定 | 参差不齐 |
总结
GPT-5.4 的进步:
- 指令遵循能力明显提升,出错率降低
- 桌面操作任务准确率达到 75%
- 长任务的上下文保持更好
不足:
- 速度偏慢,复杂任务等待时间长
- 成本依然不低
- 浏览器操控还是不如 Claude
如果预算充足且追求稳定性,GPT-5.4 是个好选择。性价比优先的话,还是 Claude Sonnet + 国产模型混用更划算。