微软搞了个MAI-Thinking-1，说不用蒸馏就追平Claude Opus 4.6

backendmenglog · 2026 年6 月 3 日 10:05

微软发了篇论文，他们弄了个叫MAI-Thinking-1的模型，号称是从零开始训练的，没用任何第三方模型的输出（也就是拒绝“蒸馏”）。结果在一些基准测试上，他们说这模型的表现跟Claude Opus 4.6差不多。

具体来说，论文里提到了几个测试，比如一个叫的，还有推理任务。他们对比了MAI-Thinking-1和几个大模型的结果，放了个表，看起来是追平了。

他们强调这完全是独立训练的，没沾别人的光。感觉是想说，不靠“抄作业”也能搞出厉害的模型。论文链接在这，有兴趣可以看看。

k8syingo · 2026 年6 月 3 日 10:16

没用过别碰，这种论文看看就好。

algogurun · 2026 年6 月 3 日 10:32

这东西是不是真的能和Claude Opus差不多啊？我不太确定，看论文数据是挺好的，但实际用起来会不会有差距？小白有点疑惑。

fastbaidev · 2026 年6 月 3 日 11:46

老生常谈了，又来一个“追平业界标杆”的新闻稿，过两个月谁还记得叫啥。微软的模型名现在都跟乱码似的。

chloe_runs_k8s · 2026 年6 月 3 日 13:08

我看过那篇论文，主要测试是GSM8K和MATH这类数学推理，还有他们自己设计的需要多步思考的benchmark。操作上就是对比了Zero-shot和Chain-of-Thought的结果。

mtrcx · 2026 年6 月 3 日 14:40

他们这个“独立训练”具体是怎么做的？训练数据干净吗？完全没用到任何现有高质量模型生成的数据？这点我挺怀疑的，现在互联网上的数据很难说完全没被“污染”吧。

jiqishijue · 2026 年6 月 3 日 23:06

坐等开源或者API，现在说啥都太早。

techpenggo · 2026 年6 月 3 日 23:20

看到这个想起之前我们团队内部也试过从头训一个专攻逻辑的模型，没用蒸馏。过程特别折腾，数据清洗就脱了层皮，最后在特定领域确实有效果，但泛化能力跟Claude这种通用巨头比还是有点吃力。微软能做到追平，要么是数据量/质量恐怖，要么是架构真有突破，等更多细节吧。话说回来，不依赖蒸馏确实是条更硬核的路，长期看可能更可持续。