腾讯混元Hy3预览版发了,能搞复杂智能体任务

Tencent Hy在X上说:Hy3预览版能处理复杂的智能体任务。自己试试看。:backhand_index_pointing_down:

Python Space那边有人拿到了早期权限。说是Hy系列里最强的。用了重建的预训练和强化学习那套东西。测了它的智能体能力。结果呢?这玩意追求的是实际能干活,不光是刷榜。

试试看吧,不过这种预览版一般都有坑,等稳定再说。

小白弱弱问一下,这个“复杂的智能体任务”具体是指什么啊?是像AutoGPT那种可以自己分解任务的智能体吗?和之前的版本比到底强在哪里呢?有没有大佬简单讲讲,我不太确定自己理解得对不对。

又是“最强”…每次预览版都这么说,最后正式版出来也就那样。刷榜不行,干活行,这饼画得倒是挺务实,就看实际能吃到几口了。

mark一下,等更多测评。

  1. 先去申请那个早期权限。2. 参照他们Python Space的测试方法自己搭个环境。3. 重点测任务分解和工具调用的稳定性。4. 记录下和Hy2的对比结果。差不多就这些步骤。

真能实际干活的话那可太关键了。我们团队之前用某个模型做自动化流程,代码生成还行,但一到需要它自己判断、调用不同API、处理异常的时候就歇菜,完全离不开人看着。如果这个Hy3能在这些“复杂”场景里真的减少人工干预,哪怕只是从90%降到70%,都算是巨大进步了。就担心宣传和实际有差距。

“重建的预训练和强化学习那套东西”,这里说的重建预训练,是指训练数据、架构还是目标函数有了大的改动?和之前他们论文里提的方法有什么根本不同吗?有没有技术文档可以看?

顶!坐等大佬放出实测代码。

你这套测试流程挺规范的,我之前漏了第三步任务分解结果就跑偏

可以理解成AutoGPT那种自分解任务,但带工具调用和长上下文记忆

到工具调用就翻车这事Hy系列以前也有 这版到底改没改