GRPO遇到瓶颈了？G²RPO-A靠自适应指导给小模型推理能力加buff

apihego · 2026 年5 月 6 日 15:00

Title: 文章库｜机器之心

URL Source: 文章库 | 机器之心

Markdown Content:
TRAE SOLO移动端上线，手机也能干活了，随时随地Vibe Working

今天

TRAE SOLO

GRPO遇到瓶颈了？G²RPO-A靠自适应指导给小模型推理能力加buff

今天

ACL 2026

Luma Uni-1.1 API开放，图像模型榜单第三，文字渲染直逼GPT image 2

今天

Uni-1.1-Max

领先Transformer！新架构首个1200万上下文模型SubQ，成本只有Opus的5%

今天

SSA（Subquadratic Sparse Attention）

公里级场景也能稳住了，国产团队把长视频3D重建又往前推了一步

今天

3D 重建

820万合成分子、100%化学有效：CoCoGraph用534K级参数把分子生成推向真实化学分布

今天

AI for Science

国产双开源：让Mac成为你的私人AI工作站

今天

Mano-P

DeepSeek版Claude Code登顶热榜：8700星，鲸鱼哥火了

今天

DeepSeek TUI

阿里开源PromptEcho：用冻结多模态大模型为文生图训练提供高质量Reward

今天

PromptEcho

VLA不够了？触觉，将改写具身智能新格局

今天

Daimon-Infinity

ICLR 2026 | 救命，手机Live Photo重选封面终于不糊了

今天

Live Photo

Anthropic联创定下deadline：2028年AI实现自我进化，没有人类了

05月05日

Jack Clark

大型挂机现场：马斯克的55万英伟达GPU，利用率才11%

05月05日

马斯克

Agent-World：扩展真实世界环境，让智能体与环境协同进化！

05月05日

中国人民大学

计算机科学专业第三次大衰退？原因：AI

05月05日

计算机科学

CVPR 2026 Oral｜横扫室内3D场景，港科大（广州）打造单目开放词汇占据预测新SOTA

05月05日

LegoOcc

黄仁勋点名Anthropic达里奥，别一当CEO，就开「上帝视角」

05月04日

Dario Amodei

ACL 2026｜AI for聋哑群体，港理工开源思考型手语翻译模型

05月04日

SignThought

DeepSeek做大→Mega MoE，Tri Dao团队加快→SonicMoE

05月04日

DeepSeek

ACL 2026｜世界模型能让智能体「预知未来」？这篇新范式研究给了一个反直觉的答案

05月04日

Foresight Governance（前瞻治理）

go_guo_hq · 2026 年5 月 6 日 15:10

这东西我去年试过，当时写了个小demo，结果模型自己把自己绕进去了，最后输出的东西完全没法看。后来发现是指导信号给得太频繁，把模型自己的推理节奏打乱了。自适应指导听起来不错，但实际部署的时候还是得调很多超参，不是直接拿来就能用的。不过对小模型来说确实是个思路，毕竟大模型太贵了。

dbgxr · 2026 年5 月 6 日 15:52

又吹什么自适应指导，结果一看论文连代码都没放。等开源了再说吧。

reacthudev · 2026 年5 月 6 日 23:28

那个…小白问一下，GRPO和DPO到底啥区别啊？我看好多地方都在说这个，是不是差不多？还有这个G²RPO-A，后面那个A是啥意思？

k8sguogo · 2026 年5 月 6 日 23:34

mark一下，等代码

reactluorun · 2026 年5 月 6 日 23:40

上周刚把7B的模型用类似方法折腾了一遍。具体就是先让大模型生成一批带推理链的数据，然后设计了个简单的奖励模型去评估中间步骤，不是只看最终答案。训练的时候loss加了个自适应权重，效果比直接模仿学习好一点，但特别吃数据质量。感觉这文章的重点可能在怎么动态调整指导强度？

smart_deng_go · 2026 年5 月 6 日 23:58

话说今天Luma那个API开了，有人试过没？文字渲染效果真像说的那么好吗，价格咋样？跑题问一句。

slatekoji · 2026 年5 月 13 日 12:28

是这样，奖励信号太密反而打乱推理节奏，得稀疏给

mintygrn · 2026 年5 月 14 日 12:10

中间步骤打分这思路靠谱，比PPO那种端到端调好多了，奖励模型咋设的