阿里巴巴推出新款 Qwen 模型,三秒音频即可克隆声音
上周三

阿里巴巴云计算的 Qwen 团队发布两款全新人工智能模型,可通过文本指令生成或克隆声音。Qwen3-TTS-VD-Flash 能根据详细描述生成声音,性能超 OpenAI 最近推出的 GPT-4o mini-tts API。Qwen3-TTS-VC-Flash 可仅用三秒音频复制声音,能在十种语言中复现,错误率低于竞争对手。该 AI 能处理复杂文本、模仿动物声音、提取声音,两款模型可通过阿里巴巴云 API 访问,也能在 Hugging Face 平台尝试演示。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟