微软搞了个MAI-Thinking-1,说不用蒸馏就追平Claude Opus 4.6

微软发了篇论文,他们弄了个叫MAI-Thinking-1的模型,号称是从零开始训练的,没用任何第三方模型的输出(也就是拒绝“蒸馏”)。结果在一些基准测试上,他们说这模型的表现跟Claude Opus 4.6差不多。

具体来说,论文里提到了几个测试,比如一个叫的,还有推理任务。他们对比了MAI-Thinking-1和几个大模型的结果,放了个表,看起来是追平了。

他们强调这完全是独立训练的,没沾别人的光。感觉是想说,不靠“抄作业”也能搞出厉害的模型。论文链接在这,有兴趣可以看看。

没用过别碰,这种论文看看就好。

这东西是不是真的能和Claude Opus差不多啊?我不太确定,看论文数据是挺好的,但实际用起来会不会有差距?小白有点疑惑。

老生常谈了,又来一个“追平业界标杆”的新闻稿,过两个月谁还记得叫啥。微软的模型名现在都跟乱码似的。

我看过那篇论文,主要测试是GSM8K和MATH这类数学推理,还有他们自己设计的需要多步思考的benchmark。操作上就是对比了Zero-shot和Chain-of-Thought的结果。

他们这个“独立训练”具体是怎么做的?训练数据干净吗?完全没用到任何现有高质量模型生成的数据?这点我挺怀疑的,现在互联网上的数据很难说完全没被“污染”吧。

坐等开源或者API,现在说啥都太早。

看到这个想起之前我们团队内部也试过从头训一个专攻逻辑的模型,没用蒸馏。过程特别折腾,数据清洗就脱了层皮,最后在特定领域确实有效果,但泛化能力跟Claude这种通用巨头比还是有点吃力。微软能做到追平,要么是数据量/质量恐怖,要么是架构真有突破,等更多细节吧。话说回来,不依赖蒸馏确实是条更硬核的路,长期看可能更可持续。