阿里巴巴推出新款 Qwen 模型，三秒音频即可克隆声音

2025 年 12 月 24 日

阿里巴巴云计算的 Qwen 团队发布两款全新人工智能模型，可通过文本指令生成或克隆声音。Qwen3-TTS-VD-Flash 能根据详细描述生成声音，性能超 OpenAI 最近推出的 GPT-4o mini-tts API。Qwen3-TTS-VC-Flash 可仅用三秒音频复制声音，能在十种语言中复现，错误率低于竞争对手。该 AI 能处理复杂文本、模仿动物声音、提取声音，两款模型可通过阿里巴巴云 API 访问，也能在 Hugging Face 平台尝试演示。

aibase

阿里升级新一代语音模型 Qwen3-TTS，可参考文字、声音生成拟人音色

华尔街见闻 / 雷锋网 / 格隆汇 / 36Kr / 网易科技

阿里升级语音模型 Qwen3-TTS

网易科技 / 界面 / 钛媒体

专业版功能

体验专业版特色功能，拓展更丰富、更全面的相关内容。