单卡搞定万帧视频理解智源新模型12秒编码2048帧视频单张显卡,就能处理万帧视频

量子位看科技 2025-06-04 15:26:32

单卡搞定万帧视频理解智源新模型12秒编码2048帧视频

单张显卡,就能处理万帧视频输入,并且编码2048帧视频仅需12秒!

国产开源模型又上大分,这次是在长视频理解领域:

智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型Video-XL-2。

长视频理解是多模态大模型关键能力之一。尽管OpenAI GPT-4o、Google Gemini等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。

而Video-XL-2相较于上一版本的Video-XL,在多个维度全面优化了开源多模态大模型对长视频内容的理解能力:

- 效果更佳:Video-XL-2在长视频理解任务中表现出色,在MLVU、Video-MME、LVBench等主流评测基准上达到了同参数规模开源模型的领先水平。

- 长度更长:新模型显著扩展了可处理视频的时长,支持在单张显卡上高效处理长达万帧的视频输入。

- 速度更快:Video-XL-2大幅提升了处理效率,编码2048帧视频仅需12秒,显著加速长视频理解流程。

目前,Video-XL-2的模型权重已全面向社区开放。未来,该模型有望在影视内容分析、异常行为监测等多个实际场景中展现重要应用价值。

0 阅读:2
量子位看科技

量子位看科技

感谢大家的关注