我自己大概分了这么几类:
- 结构化报告(商业技术分析、调研报告)
- 技术文档(用户手册、项目文档)
- 营销和职场文(文案、纪要、社媒)
- 教育和知识转化(讲解知识点、文件转笔记、科普)
- 创意和叙事(小说)
- 深度长文(深度博客、公众号、观点文)
- 其他
我试了第2和第4类。因为我的Claude已经用不了了,只能拿以前的记录对比一下。感觉已经能和Claude掰手腕了,中文确实像官方说的那样,比较本土化,挺强的。但也有点拉跨的地方,比如它好像搞不清报告是写给谁看的,非得我强调一遍,默认这报告是给我自己看的。实际上上下文里明明说了,这报告是要交给评分者的。这点也挺像GPT的,喜欢在报告或者前端里,把自己的注释直接写出来,比如“这个可以拿去交作业了”,就这么杵在报告里。
如图:
表达上当然比GPT 5.5强。不过我的比较可能还不够深,比如没用一个大项目去测测它能不能很好地维护整个项目的文档?
打折后价格低,还有1M上下文,这应该是v4 pro最大的优势了。听说吃很多上下文也不会忘得太厉害,不知道在写作上能不能平替Claude。要是能的话,我真就放弃Claude了,前端用Gemini,后端和其他用途就用GPT。
官方测评数据:
| 类别 | 子类别 | 内部评估样本数 | DS 胜 | Gem 胜 | 平局 | DS% | Gem% | 平局% |
|---|---|---|---|---|---|---|---|---|
| 办公文本 | 报告 | 527 | 350 | 162 | 15 | 66.41 | 30.74 | 2.85 |
| 方案策划 | 291 | 162 | 103 | 26 | 55.67 | 35.40 | 8.93 | |
| 教育培训 | 159 | 100 | 56 | 3 | 62.89 | 35.22 | 1.89 | |
| 邮件书信 | 146 | 107 | 37 | 2 | 73.29 | 25.34 | 1.37 | |
| 通知公告 | 72 | 56 | 14 | 2 | 77.78 | 19.44 | 2.78 | |
| 专业文本 | 63 | 27 | 34 | 2 | 42.86 | 53.97 | 3.17 | |
| 招聘求职 | 42 | 15 | 24 | 3 | 35.71 | 57.14 | 7.14 | |
| 技术文本 | 29 | 7 | 22 | 0 | 24.14 | 75.86 | 0.00 | |
| 介绍评价 | 20 | 5 | 15 | 0 | 25.00 | 75.00 | 0.00 | |
| 小计 | - | 1349 | 879 | 436 | 34 | 65.16 | 32.32 | 2.52 |
| 媒体文本 | 社交媒体文案 | 267 | 156 | 101 | 10 | 58.43 | 37.83 | 3.75 |
| 广告商品文案 | 214 | 109 | 98 | 7 | 50.93 | 45.79 | 3.27 | |
| 内容平台长文 | 51 | 26 | 17 | 8 | 50.98 | 33.33 | 15.69 | |
| 新闻报道 | 17 | 4 | 12 | 1 | 23.53 | 70.59 | 5.88 | |
| 营销软文 | 11 | 2 | 7 | 2 | 18.18 | 63.64 | 18.18 | |
| 标题 | 4 | 1 | 2 | 1 | 25.00 | 50.00 | 25.00 | |
| 小计 | - | 666 | 386 | 256 | 24 | 57.96 | 38.44 | 3.60 |
| 生活文本 | 祝贺文本 | 101 | 54 | 41 | 6 | 53.47 | 40.59 | 5.94 |
| 沟通回复 | 100 | 71 | 26 | 3 | 71.00 | 26.00 | 3.00 | |
| 心得感想 | 90 | 68 | 17 | 5 | 75.56 | 18.89 | 5.56 | |
| 介绍评价 | 55 | 26 | 26 | 3 | 47.27 | 47.27 | 5.45 | |
| 评论 | 44 | 17 | 9 | 18 | 38.64 | 20.45 | 40.91 | |
| 小计 | - | 390 | 271 | 101 | 18 | 69.49 | 25.90 | 4.62 |
| 口头文本 | 发言稿 | 226 | 135 | 85 | 6 | 59.73 | 37.61 | 2.65 |
| 口播文案 | 51 | 25 | 23 | 3 | 49.02 | 45.10 | 5.88 | |
| 话术 | 31 | 22 | 6 | 3 | 70.97 | 19.35 | 9.68 | |
| 对话文本 | 10 | 4 | 6 | 0 | 40.00 | 60.00 | 0.00 | |
| 祝贺文本 | 1 | 1 | 0 | 0 | 100.00 | 0.00 | 0.00 | |
| 小计 | - | 319 | 187 | 120 | 12 | 58.62 | 37.62 | 3.76 |
| 公文文本 | 事务文书 | 117 | 60 | 53 | 4 | 51.28 | 45.30 | 3.42 |
| 个人文书 | 73 | 45 | 27 | 1 | 61.64 | 36.99 | 1.37 | |
| 行政公文 | 34 | 19 | 14 | 1 | 55.88 | 41.18 | 2.94 | |
| 发言稿 | 3 | 1 | 2 | 0 | 33.33 | 66.67 | 0.00 | |
| 申论写作 | 3 | 1 | 1 | 1 | 33.33 | 33.33 | 33.33 | |
| 小计 | - | 230 | 126 | 97 | 7 | 54.78 | 42.17 | 3.04 |
| 学术文本 | 学术论文 | 104 | 67 | 32 | 5 | 64.42 | 30.77 | 4.81 |
| 课程作业 | 90 | 53 | 35 | 2 | 58.89 | 38.89 | 2.22 | |
| 小计 | - | 194 | 120 | 67 | 7 | 61.86 | 34.54 | 3.61 |
网上有些评价:
(看官方测评,deepseek写同人文比gemini强)
大家有啥试过的领域也来聊聊呗。