近日,阿里巴巴旗下通義千問團隊宣布正式開源Qwen2-Audio系列的兩個模型——Qwen2-Audio-7B和Qwen2-Audio-7B-Instruct。Qwen2-Audio系列模型作為大規模音頻語言模型,具備接受多種音頻信號輸入的能力,并能根據語音指令進行音頻分析或直接生成文本響應。

Qwen2-Audio提供兩種交互模式。一是語音聊天模式,用戶可無需文本輸入,直接通過語音與模型進行互動;二是音頻分析模式,用戶可結合音頻和文本指令對音頻內容進行分析,并且該模型支持超過8種語言和方言,包括中文、英語、法語、意大利語、西班牙語、德語、日語和粵語,滿足不同用戶的需求。
Qwen2-Audio與上一代模型Qwen-Audio相比,Qwen2-Audio在聲音理解能力和指令跟隨能力上均實現了顯著提升,通義團隊還發布了一套全新的音頻理解模型測評基準,相關論文已被國際頂級會議ACL 2024收錄。
該模型具有高性能、易于集成和可微調的特點,代碼已集成到Hugging Face的transformers庫,方便開發者快速上手和使用。
在一系列基準數據集的測試中,Qwen2-Audio系列模型的表現超越了之前的最佳模型,展現了其在音頻處理領域的領先地位。





京公網安備 11011402013531號