mzo

阿里云发布 Qwen-TTS 语音合成模型 接近真人语音 支持普通话、英文,以及三种中文地方方言

阿里云发布 Qwen-TTS 语音合成模型 接近真人语音 支持普通话、英文,以及三种中文地方方言

阿里云发布 Qwen-TTS 高性能语音合成模型(Text-to-Speech,TTS)。其核心能力是将输入的中英文文本转换为具备自然表达力的语音输出。 与传统 TTS 模型相比,Qwen-TTS 最大的亮点在于: * 高自然度:声音表达更接近真人,具备情感、节奏、语调变化; * 多语种与方言支持:目前支持普通话、英文,以及三种中文方言(北京话、上海话、四川话); * 多音色选择:提供不同性别、语调和口音的声音,适配多样化场景。 语言与方言支持细节 支持的语音变体: 真实合成样例:https://qwenlm.github.io/zh/blog/qwen-tts/ 技术原理与数据基础 1. 大规模训练语料支撑 模型训练使用了超过 300 万小时的语音数据,包括中英文对齐数据以及丰富的方言语料,这使得模型不仅语音自然,而且能模仿不同地区的说话风格。 2. 韵律与情感建模 Qwen-TTS 支持自动调整文本的语速、
mzo

智言API 推荐主流大模型&使用代码示例

🎁 API聚合,太方便了 马上接入教学视频 无需逐个注册:不用再一个个注册中国所有大模型厂商开发后台了,有一个智言API 账号全搞定。 模型全覆盖:包括国内外超过500个大模型。 轻量使用,社群陪伴:加入LangChain中国社区超过10000名开发者一起成长,90后、00后 LLM开发者都在这里。 我对国内大模型的一点体会:我是本站站长腾哥。因为一直在折腾数据预处理,会需要在不同的模型测试不同的 Prompt,有了一点点体会。我的整体感觉是:国内大模型能力差距很小,大尺寸模型的能力基本都可以平替 GPT 3.5 了,但和 GPT-4 差距还是挺明显的。做RAG知识库国内模型完全胜任,但要做一些合同分析等,还是需要提升。我手头经常是几个模型一起串起来用,因为有些 prompt 你会发现就是某个模型更容易理解。我的体会是:在你迭代 prompt 前,可以先多换几个模型试试,比在一个模型上死磕 Prompt 好。 推荐学习并测试下面这些模型模型全称开发者平台OpenAI:4o-mini 真香!gpt-4o-mini
mzo