MiniMax开源首个视觉RL统一框架闫俊杰领衔开源首个视觉RL统一框架仅需一个

量子位看科技 2025-05-28 11:29:02

MiniMax开源首个视觉RL统一框架闫俊杰领衔开源首个视觉RL统一框架

仅需一个强化学习(RL)框架,就能实现视觉任务大统一?

现有RL对推理和感知任务只能二选一,但“大模型六小强”之一MiniMax表示:我全都要!

最新开源V-Triune(视觉三重统一强化学习系统)框架,使VLM首次能够在单个后训练流程中,联合学习和掌握视觉推理和感知任务。

通过三层组件设计和基于动态交并比(IoU)的奖励机制,弥补了传统RL方法无法兼顾多重任务的空白。

甚至基于V-Triune,MiniMax还一步到位,贴心地给大家开发了全新的Orsta(One RL to See Them All)模型系列(7B至32B),在MEGA-Bench Core基准测试中从+2.1%显著提升至+14.1%。

值得注意的是,在论文的作者一栏,MiniMax创始人兼CEO闫俊杰也参与了这项研究。

目前V-Triune框架和Orsta模型都在GitHub上实现全面开源,点击文末链接即可跳转一键获取。

那话不多说,咱们直接上细节。

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注