原生多模态:研究框架 | 中信证券计算机 报告缘起:理解是生成的天花板,原生多模态是产业奇点。 主流模型正从“模块化”架构转向“原生多模态”架构,这是一个根本性的范式转变,是解决理解瓶颈、驱动产业价值跃迁的“奇点”。本报告以此为锚点,建立从技术基座到商业格局,再到应用落地的研究框架。 技术基座:原生架构成共识,实时交互迎拐点。 原生多模态架构的核心,在于原生架构(统一编码器)能实现更深度的信息融合、更优的扩展性。编码器技术,如Qwen-Omni的突破,正解决原生架构的扩展难题;中长期看,视觉自监督学习路线有望打破文本数据天花板,带动模型规模新一轮扩增。此外,模型能力正从处理“静态图像”向“实时动态视频+语音”交互演进。推理延迟的大幅降低是关键,这使得能看、能听、会思考的实时助手成为可能。 产业格局:原生多模态带来新价值,多元化应用逐渐突围。 全栈巨头:构建“垂直整合”的生态闭环。OpenAI的战略是成为“AI操作系统”,通过Apps SDK和Sora 2的社交化尝试构建生态护城河;Google利用多模态模型Veo/Nano Banana吸引C端用户,实现数据获取和谷歌生态的强化,反哺B端平台Vertex AI。 垂类应用:打造AI原生应用,推动商业化价值重估。上市公司以万兴科技、美图公司为代表,它们利用庞大的用户基数,通过“AI订阅/积分”模式激活存量、提升ARPU;同时孵化AI原生应用,拓展新市场,开启第二增长曲线。初创企业以智谱、Minimax、零一万物、硅基智能、生数科技、爱诗科技等为代表。 技术赋能:AI与行业知识深度融合,“AI+”赋能特定场景。以虹软科技、当虹科技、海天瑞声为代表,其本质是将AI大模型与自身积累的深厚领域知识(如视觉算法、视频压缩)相融合,赋能智能汽车、工业、传媒等高价值特定场景,壁垒极高。 投资策略:把握基础和应用两大主线。 模型层来看,多模 态产品将催生规模远超训练且持续稳定的推理算力需求,建议关注推理算力产业链的相关环节;应用层来看,原生多模态趋势下,建议关注垂类应用及技术赋能两大机遇: (1)垂类应用:建议关注具备较大用户基数、且已通过“AI订阅/积分”模式验证付费意愿的公司,如万兴科技、美图公司等。 (2)技术赋能:建议关注与多模态融合程度高、本身场景高价值(如汽车、工业)的细分领域及其核心技术供应商,如海天瑞声、当虹科技等。