小米今日正式发布 MiMo‑V2.5‑TTS 系列与 MiMo‑V2.5‑ASR

小米今日正式发布 MiMo‑V2.5‑TTS 系列与 MiMo‑V2.5‑ASR 全链路语音大模型，面向 Agent 时代打造语音输入输出完整方案，可通过自然语言直接调度声音表现，也将为智能座舱等人车家全生态场景提供更流畅的语音交互支撑。MiMo‑V2.5‑TTS 系列包含三款模型，已上线小米 MiMo 开放平台并限时免费。基础款内置多款精品音色，支持语速、情绪、语气精细化控制；VoiceDesign 版本可一句话快速生成全新音色；VoiceClone 版本用少量音频样本就能高保真复刻目标音色，同时保留风格指令与音频标签控制能力。三款模型共享统一能力，支持导演剧本级结构化输入、行内音频标签调控，即便纯文本也能自动捕捉情感韵律与说话人特征。MiMo‑V2.5‑ASR 同步开源模型权重与代码，在中英双语、中文方言、中英混语、强噪音、多说话人、歌曲识别、知识密集内容等复杂真实场景下识别性能达到业界领先，可原生输出标点，转写结果直接可用，为车载、会议等场景提供稳定可靠的语音转写能力。

DC娱乐网

小米今日正式发布 MiMo‑V2.5‑TTS 系列与 MiMo‑V2.5‑ASR

热门分类