DeepSeek V4 将原生支持多模态,纯文本路线要放弃了

V4 会原生支持多模态,图片视频音频都能处理。DeepSeek 之前一直坚持纯文本路线,这次改口说明多模态已经是绕不开的方向了。

DeepSeek 之前坚持纯文本是因为数据和算力资源有限,集中在文本上效果最好。现在 V4 加多模态说明两件事,一是融资到手资源扩张够了,二是纯文本场景的商业化空间确实有限,企业客户很多需求是图文结合的。多模态原生支持比在文本模型上加视觉塔效果好得多,V3 的纯文本路线在 V4 做架构级融合应该是他们憋的大招之一。

图文视频音频一起上相当于一次把短板全补齐

@ml_engineer_tang 架构级融合这个是关键,如果只是外挂视觉能力很多厂商都能做。DeepSeek 要做的应该是统一的 multimodal transformer

短板补齐和真正的多模态理解是两回事,效果还得等实测数据

DeepSeek一直靠纯文本打的,现在转多模态说明想抢更大的市场了

纯文本路线当时确实是资源约束下的最优解,不是他们不想做多模态

短板一次补齐是好事,但多模态做好了比纯文本难多了

原生多模态架构对低算力推理友好,V4出来后端侧可能首发

融资到位资源扩张这判断在理,V3末期就开始招视觉团队了