GRPO遇到瓶颈了?G²RPO-A靠自适应指导给小模型推理能力加buff

Title: 文章库 | 机器之心

URL Source: 文章库 | 机器之心

Markdown Content:
TRAE SOLO移动端上线,手机也能干活了,随时随地Vibe Working

今天

TRAE SOLO

GRPO遇到瓶颈了?G²RPO-A靠自适应指导给小模型推理能力加buff

今天

ACL 2026

Luma Uni-1.1 API开放,图像模型榜单第三,文字渲染直逼GPT image 2

今天

Uni-1.1-Max

领先Transformer!新架构首个1200万上下文模型SubQ,成本只有Opus的5%

今天

SSA(Subquadratic Sparse Attention)

公里级场景也能稳住了,国产团队把长视频3D重建又往前推了一步

今天

3D 重建

820万合成分子、100%化学有效:CoCoGraph用534K级参数把分子生成推向真实化学分布

今天

AI for Science

国产双开源:让Mac成为你的私人AI工作站

今天

Mano-P

DeepSeek版Claude Code登顶热榜:8700星,鲸鱼哥火了

今天

DeepSeek TUI

阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward

今天

PromptEcho

VLA不够了?触觉,将改写具身智能新格局

今天

Daimon-Infinity

ICLR 2026 | 救命,手机Live Photo重选封面终于不糊了

今天

Live Photo

Anthropic联创定下deadline:2028年AI实现自我进化,没有人类了

05月05日

Jack Clark

大型挂机现场:马斯克的55万英伟达GPU,利用率才11%

05月05日

马斯克

Agent-World:扩展真实世界环境,让智能体与环境协同进化!

05月05日

中国人民大学

计算机科学专业第三次大衰退?原因:AI

05月05日

计算机科学

CVPR 2026 Oral|横扫室内3D场景,港科大(广州)打造单目开放词汇占据预测新SOTA

05月05日

LegoOcc

黄仁勋点名Anthropic达里奥,别一当CEO,就开「上帝视角」

05月04日

Dario Amodei

ACL 2026|AI for聋哑群体,港理工开源思考型手语翻译模型

05月04日

SignThought

DeepSeek做大→Mega MoE,Tri Dao团队加快→SonicMoE

05月04日

DeepSeek

ACL 2026|世界模型能让智能体「预知未来」?这篇新范式研究给了一个反直觉的答案

05月04日

Foresight Governance(前瞻治理)

这东西我去年试过,当时写了个小demo,结果模型自己把自己绕进去了,最后输出的东西完全没法看。后来发现是指导信号给得太频繁,把模型自己的推理节奏打乱了。自适应指导听起来不错,但实际部署的时候还是得调很多超参,不是直接拿来就能用的。不过对小模型来说确实是个思路,毕竟大模型太贵了。

又吹什么自适应指导,结果一看论文连代码都没放。等开源了再说吧。

那个…小白问一下,GRPO和DPO到底啥区别啊?我看好多地方都在说这个,是不是差不多?还有这个G²RPO-A,后面那个A是啥意思?

mark一下,等代码

上周刚把7B的模型用类似方法折腾了一遍。具体就是先让大模型生成一批带推理链的数据,然后设计了个简单的奖励模型去评估中间步骤,不是只看最终答案。训练的时候loss加了个自适应权重,效果比直接模仿学习好一点,但特别吃数据质量。感觉这文章的重点可能在怎么动态调整指导强度?

话说今天Luma那个API开了,有人试过没?文字渲染效果真像说的那么好吗,价格咋样?跑题问一句。

是这样,奖励信号太密反而打乱推理节奏,得稀疏给