IT之家 11 月 3 日消息,9 月 1 日,美團正式發布 LongCat-Flash 系列模型,現已開源 LongCat-Flash-Chat 和 LongCat-Flash-Thinking 兩大版本,獲得了開發者的關注。今天 LongCat-Flash 系列正式發布全新家族成員 ——LongCat-Flash-Omni。
IT之家從官方介紹獲悉,LongCat-Flash-Omni 以 LongCat-Flash 系列的高效架構設計為基礎( Shortcut-Connected MoE,含零計算專家),同時創新性集成了高效多模態感知模塊與語音重建模塊。即便在總參數 5600 億(激活參數 270 億)的龐大參數規模下,仍實現了低延遲的實時音視頻交互能力,為開發者的多模態應用場景提供了更高效的技術選擇。


綜合評估結果表明,LongCat-Flash-Omni 在全模態基準測試中達到開源最先進水平(SOTA),同時在文本、圖像、視頻理解及語音感知與生成等關鍵單模態任務中,均展現出極強的競爭力。LongCat-Flash-Omni 是業界首個實現 “全模態覆蓋、端到端架構、大參數量高效推理” 于一體的開源大語言模型,首次在開源范疇內實現了全模態能力對閉源模型的對標,并憑借創新的架構設計與工程優化,讓大參數模型在多模態任務中也能實現毫秒級響應,解決了行業內推理延遲的痛點。


文本:LongCat-Flash-Omni 延續了該系列卓越的文本基礎能力,且在多領域均呈現領先性能。相較于 LongCat-Flash 系列早期版本,該模型不僅未出現文本能力的衰減,反而在部分領域實現了性能提升。這一結果不僅印證了我們訓練策略的有效性,更凸顯出全模態模型訓練中不同模態間的潛在協同價值。
圖像理解:LongCat-Flash-Omni 的性能(RealWorldQA 74.8 分)與閉源全模態模型 Gemini-2.5-Pro 相當,且優于開源模型 Qwen3-Omni;多圖像任務優勢尤為顯著,核心得益于高質量交織圖文、多圖像及視頻數據集上的訓練成果。
音頻能力:從自動語音識別(ASR)、文本到語音(TTS)、語音續寫維度進行評估,Instruct Model 層面表現突出:ASR 在 LibriSpeech、AISHELL-1 等數據集上優于 Gemini-2.5-Pro;語音到文本翻譯(S2TT)在 CoVost2 表現強勁;音頻理解在 TUT2017、Nonspeech7k 等任務達當前最優;音頻到文本對話在 OpenAudioBench、VoiceBench 表現優異,實時音視頻交互評分接近閉源模型,類人性指標優于 GPT-4o,實現基礎能力到實用交互的高效轉化。
視頻理解:LongCat-Flash-Omni 視頻到文本任務性能達當前最優,短視頻理解大幅優于現有參評模型,長視頻理解比肩 Gemini-2.5-Pro 與 Qwen3-VL,這得益于動態幀采樣、分層令牌聚合的視頻處理策略,及高效骨干網絡對長上下文的支持。
跨模態理解:性能優于 Gemini-2.5-Flash(非思考模式),比肩 Gemini-2.5-Pro(非思考模式);尤其在真實世界音視頻理解 WorldSense 基準測試上,相較其他開源全模態模型展現出顯著的性能優勢,印證其高效的多模態融合能力,是當前綜合能力領先的開源全模態模型。

端到端交互:由于目前行業內尚未有成熟的實時多模態交互評估體系,LongCat 團隊構建了一套專屬的端到端評測方案,該方案由定量用戶評分(250 名用戶評分)與定性專家分析(10 名專家,200 個對話樣本)組成。定量結果顯示:圍繞端到端交互的自然度與流暢度,LongCat-Flash-Omni 在開源模型中展現出顯著優勢 —— 其評分比當前最優開源模型 Qwen3-Omni 高出 0.56 分;定性結果顯示:LongCat-Flash-Omni 在副語言理解、相關性與記憶能力三個維度與頂級模型持平,但是在實時性、類人性與準確性三個維度仍存在差距,也將在未來工作中進一步優化。





京公網安備 11011402013531號