DC娱乐网

Qwen3-TTS 全系列模型正式开源 Qwen 发布 Qwen3-TTS 语

Qwen3-TTS 全系列模型正式开源 Qwen 发布 Qwen3-TTS 语音生成模型,支持音色克隆、音色创造、自然语言控制与低延迟流式合成。基于多码本 Tokenizer 与 Dual-Track 架构,首包音频可在单字符后输出,最低延迟 97ms。 模型提供 1.7B 与 0.6B 两种规模,覆盖中英日等 10 种语言,现已在 GitHub、Hugging Face、ModelScope 开源。 重要亮点 1.功能全面:支持音色克隆、创造、超高质量拟人化语音生成以及基于自然语言描述的语音控制。 2.性能卓越:在音色克隆、创造、控制等方面均达到 SOTA 性能。 3.支持多种语言:覆盖 10 种主流语言及多种方言音色。 4.开源免费:已在 Github 上开源,并提供 API 接口。