一文总结视觉语言模型最新进展视觉语言模型最新全景指南
还能跟上视觉语言模型发展的步伐吗?是时候来回顾一下它们的最新发展了!
HuggingFace一篇新博客,用八大章节总结了VLM领域的最新发展。【图1】
一起来看看文章的细节:
一、新的模型架构趋势
1. Any-to-any模型,支持多种输入和输出模态,代表模型有:
- Chameleon:可输入并输出图像和文本,未开放图像生成能力
- Lumina-mGPT:在Chameleon基础上开发的模型,增加了图像生成能力
- Qwen 2.5 Omni:采用“Thinker-Talker”架构,“Thinker”负责文本生成,“Talker”以流式方式产生自然语音响应。【图2】
2. 推理模型,擅长复杂问题推理,代表模型有:
- QVQ-72B-preview:2025 年前唯一开源的多模态推理模型
- Kimi-VL-A3B-Thinking:基于Kimi-VL优化,强化长链推理能力【图3】
3. 小巧但功能强大的模型,参数量小(