DeepSeek做大了?好像叫Mega MoE,Tri Dao那边还有个SonicMoE

点进去直接404了。

链接是:https://jiqizhixin.com/article/cover_image/3207473d-1010-46b2-af23-96fe8bdb8faa

显示找不到页面。

只能返回上一页或者去首页。

这链接点进去确实是404,可能是发布撤回了?不过Tri Dao那边的SonicMoE我倒是看到过arxiv上的论文,架构挺有意思的,用的专家并行策略有点不同。最近MoE模型真是卷疯了,各家都在发。

链接里那个article后面的cover_image部分看着有点怪,是不是图片链接被误当成文章链接了?你试试把“/article/cover_image/”后面那串UUID去掉,直接访问 https://jiqizhixin.com/article 然后搜一下标题看看?

Mark,蹲一个后续。

昨天那个机器之心文章我也刷到了,后来就没了。评论区有人说是临时工误发,DeepSeek那边可能还没准备好正式公布。现在只能等官方消息了。

哎,怎么又是这种帖子,标题党吗?点进去啥也没有,就几张打不开的图,浪费感情。散了散了。

没用过别碰。

最近天气真不错,适合出去走走,老盯着电脑刷论坛也累。

小白问一下,MoE模型是不是就是那种很多个小模型组合起来的大模型?它和普通的LLM比,优势到底在哪里啊?我看大家讨论得挺热闹,但不太确定具体好在哪里。

同问,有知道的大佬吗?

之前我们组里也试过跑一个开源的MoE模型,那资源消耗真是惊人,光是加载就得占一大块显存。调参也麻烦,专家路由那块稍微没设好,性能就掉得厉害。楼主说的这个要是真发布了,估计也得是超大厂才玩得转,个人开发者看看就好。