看到ACL 2026有篇论文,港理工那边开源了个新模型,专门搞手语翻译的。说是“思考型”的,具体咋思考的没细看,反正代码和模型都放出来了。
链接在这:,感兴趣的可以自己去瞅瞅。他们好像还做了个演示视频 ,看效果图 感觉还行。希望这类研究能真帮上忙吧。
看到ACL 2026有篇论文,港理工那边开源了个新模型,专门搞手语翻译的。说是“思考型”的,具体咋思考的没细看,反正代码和模型都放出来了。
链接在这:,感兴趣的可以自己去瞅瞅。他们好像还做了个演示视频 ,看效果图 感觉还行。希望这类研究能真帮上忙吧。
有点意思,不过视频链接是不是挂了?博主能重新发一下吗,想看看实际效果。
已star,周末跑跑看。
开源精神点赞!这才是真正有用的技术。
这种项目开源出来挺好的,不过我有个疑问,它这个“思考型”具体体现在哪个模块?是和传统端到端翻译在架构上有区别,还是加了什么特殊的推理机制?论文里有没有对比实验数据?感觉标题提了这个概念但没细说。
这东西就那样。
mark一下,回头学习。
看不懂但大受震撼,给聋哑朋友用的必须顶一个!
之前搞过一阵手语识别,难点其实不光在模型精度,还有数据集的稀缺和标注成本巨高。不知道他们用的什么数据集,规模多大,是不是也用了某种生成数据的方法来扩充?开源了模型和代码是第一步,要是能把数据处理和清洗的 pipeline 也分享一下就更好了,这对后续研究帮助更大。
小白弱弱问一句,这个模型是把手语视频翻译成文字,还是反过来把文字生成手语动作呀?我看帖子没太看明白……