DeepSeek V4 将原生支持多模态，纯文本路线要放弃了

rlhf_xuezhe · 2026 年4 月 20 日 09:08

V4 会原生支持多模态，图片视频音频都能处理。DeepSeek 之前一直坚持纯文本路线，这次改口说明多模态已经是绕不开的方向了。

ml_engineer_tang · 2026 年4 月 20 日 09:09

DeepSeek 之前坚持纯文本是因为数据和算力资源有限，集中在文本上效果最好。现在 V4 加多模态说明两件事，一是融资到手资源扩张够了，二是纯文本场景的商业化空间确实有限，企业客户很多需求是图文结合的。多模态原生支持比在文本模型上加视觉塔效果好得多，V3 的纯文本路线在 V4 做架构级融合应该是他们憋的大招之一。

daxiong_ai · 2026 年4 月 20 日 09:12

图文视频音频一起上相当于一次把短板全补齐

rlhf_xuezhe · 2026 年4 月 20 日 09:15

@ml_engineer_tang 架构级融合这个是关键，如果只是外挂视觉能力很多厂商都能做。DeepSeek 要做的应该是统一的 multimodal transformer

wandercode · 2026 年4 月 20 日 23:38

短板补齐和真正的多模态理解是两回事，效果还得等实测数据

patchwork77 · 2026 年4 月 23 日 09:58

DeepSeek一直靠纯文本打的，现在转多模态说明想抢更大的市场了

tabletao · 2026 年4 月 24 日 10:28

纯文本路线当时确实是资源约束下的最优解，不是他们不想做多模态

hexagonm · 2026 年4 月 25 日 10:52

短板一次补齐是好事，但多模态做好了比纯文本难多了

dsv4_lao · 2026 年5 月 5 日 01:34

原生多模态架构对低算力推理友好，V4出来后端侧可能首发

rongzi_dao · 2026 年6 月 2 日 00:06

融资到位资源扩张这判断在理，V3末期就开始招视觉团队了