阿里通義百聆推出語音模型新版本:3 秒錄音即可“復(fù)制”9 種語言、18 種方言
IT之家 12 月 15 日消息,今天下午,通義大模型通過官方公眾號宣布,兩款“百聆”語音模型正式開源,兩款模型迎來升級。根據(jù)介紹,其只需 3 秒錄音,就能讓你的聲音無縫切換語種、方言與情緒 —— 普通話、粵語、日、英、開心、憤怒……9 種通用語言、18 種方言,通通搞定。
升級
Fun-CosyVoice3 模型升級:首包延遲降低 50%,中英混字準確率翻倍,支持 9 語種 18 方言口音、跨語種克隆與情感控制;
Fun-ASR 模型能力增強:噪聲場景準確率 93%、支持歌詞與說唱識別、31 語種自由混說、方言口音覆蓋,并將流式識別模型的首字降低到 160ms。
開源
Fun-CosyVoice3(0.5B)開源:提供 zero-shot 音色克隆能力,支持本地部署與二次開發(fā);
Fun-ASR-Nano(0.8B)開源:Fun-ASR 的輕量化版本,推理成本更低,模型開源,支持本地部署與定制化微調(diào)。
IT之家從官方獲悉,本次,F(xiàn)un-CosyVoice3 大模型完成多項關(guān)鍵升級:
首包延遲降低 50%,支持雙向流式合成,真正實現(xiàn)“輸入即發(fā)聲”,適用于語音助手、直播配音、無障礙閱讀等實時場景;
中英混說詞錯誤率(WER)相比之前降低 56.4%,不論是含專業(yè)術(shù)語、大小寫混排,還是語碼轉(zhuǎn)換的句子,都能精準、自然地發(fā)音;
在 zero-shot TTS 評測中,內(nèi)容一致性與音色相似度全面提升,復(fù)雜場景(test-hard)字符錯誤率(CER)相對降低 26%,接近人類錄音水平;
9 種通用語言、18 種中文方言、9 種情感控制,并具備跨語種音色復(fù)刻能力 —— 用一段普通話錄音,即可生成粵語、日語、英語等語音,音色保持高度一致。
而開源的 Fun-CosyVoice3-0.5B 模型提供了 zero-shot 音色克隆能力,只需要你提供一段 3 秒以上的參考音頻,即可復(fù)刻其音色并合成新語音,并且支持本地部署和二次開發(fā)。
Fun-ASR 號稱能讓 AI “聽得懂”。其基于數(shù)千萬小時真實語音數(shù)據(jù)訓(xùn)練,已在釘釘“AI 聽記”、視頻會議等場景中大規(guī)模落地。官方表示,該模型重點優(yōu)化了嘈雜環(huán)境魯棒性、多語言自由混說、中文方言與口音覆蓋、歌詞識別、定制化能力,并將流式識別模型的首字降低到 160ms。
0人