DC娱乐网

当GLM-4.5长了双眼睛,可以用来做什么?

多模态推理是迈向通用人工智能的关键一步,而视觉-语言模型正是实现它的核心基础。智谱刚发布的GLM-4.5V就是这样一款厉害的多模态大模型,它基于文本基座模型GLM-4.5-Air打造,延续了之前GLM-4.1V-Thinking的技术路线。 视觉推理能力可圈可点:开启grounding模式能精准定位目标,比如在浪浪山小妖怪的图里,能找出打架最厉害的角色;面对校招测评里的纸盒折叠题,它也能通过分析各面图案和相邻关系得出正确答案;就连抽象的梗图,它也能认出神似的人物,理解能力快赶上人类了。 在地点识别方面,它更是一把好手,能精确到具体景点。在“图寻游戏”中,表现也超棒,参赛16小时就击败了99%的人类玩家,7天更是攀升至全球第66名。 它还能理解视频,比如分析宠物视频中宠物的行为是否正常,帮助主人判断宠物状态。 从架构看,它由视觉编码器、MLP适配器和语言解码器构成,支持64K多模态长上下文,在视频和图像处理上有不少亮点。训练策略采用三阶段进阶模式,让模型在多个方面都得到了优化。 去z.ai就能玩起来啦~