北京商報訊(記者 陶鳳 王天逸)12月23日,通義大模型官方發(fā)布了新一代端到端語音交互模型 Fun-Audio-Chat。
據(jù)稱,該模型不是簡單的"能聊天",而是聽得懂你的話、感知你的情緒、還能幫你真正干活的AI語音搭子。
技術(shù)表現(xiàn)方面,新模型端到端 S2S 架構(gòu)可以從語音輸入直接生成語音輸出,無需 ASR + LLM + TTS 多模塊拼接,效率更高、延遲更低;Shared LLM 層以 5Hz 幀率 高效處理,SRH 以 25Hz 幀率 生成高質(zhì)量語音,GPU 計算開銷降低近 50%;訓(xùn)練內(nèi)容覆蓋音頻理解、語音問答、情感識別、工具調(diào)用等真實場景,讓模型更"接地氣"。





京公網(wǎng)安備 11011402013531號