![]()
日前,北京智源研究院發(fā)布悟界·Emu3.5多模態(tài)世界大模型,這款參數(shù)量達(dá)34B、訓(xùn)練數(shù)據(jù)包含790年視頻時長的模型,不僅通過自研 DiDA技術(shù)將推理速度提升20倍,更以"Next-State Prediction"范式驗證了多模態(tài)模型的世界建模能力。
這一突破并非孤立事件,而是全球技術(shù)演進(jìn)的縮影:2024年中國多模態(tài)大模型市場規(guī)模已達(dá)138.5億元,同比增長67.3%,2025年預(yù)計攀升至236.8億元。
與此同時,中國多模態(tài)大模型產(chǎn)業(yè)發(fā)展也在世界范圍內(nèi),占據(jù)一席之地。2025年全球多模態(tài)大模型市場規(guī)模預(yù)計突破4200億元人民幣,中國市場占比達(dá)35%,成為全球第二大單體市場。
多模態(tài)大模型正從實驗室走向產(chǎn)業(yè)深處,但其發(fā)展仍面臨模態(tài)融合、數(shù)據(jù)治理等多重挑戰(zhàn)。更重要的是,它已成為連接數(shù)字世界與物理世界的關(guān)鍵橋梁——既為具身智能突破數(shù)據(jù)瓶頸提供新路徑,也在醫(yī)療、工業(yè)等領(lǐng)域催生顛覆性應(yīng)用。
多模態(tài)大模型的技術(shù)“突圍戰(zhàn)”
多模態(tài)大模型的本質(zhì)是讓AI像人類一樣通過多種感官感知世界,其技術(shù)演進(jìn)始終圍繞"更高效融合、更深度理解、更廣泛應(yīng)用"三大目標(biāo)展開。
當(dāng)前多模態(tài)技術(shù)最大痛點在于實現(xiàn)真正的原生統(tǒng)一。主流方案中約60%的模型采用 “組合式架構(gòu)”——通過獨立模塊處理不同模態(tài),再通過跨模態(tài)注意力機制交互。這種方式存在致命缺陷:模態(tài)間信息傳遞損耗導(dǎo)致性能折損,且新增模態(tài)訓(xùn)練會干擾既有能力。對此,智源研究院院長王仲遠(yuǎn)告訴筆者,組合式模型處理長視頻時,文本理解準(zhǔn)確率下降很多,視覺生成的時空一致性受損,而更嚴(yán)峻的是,這種架構(gòu)難以支撐復(fù)雜推理。
CSDN在今年對5款主流模型的評測顯示,采用組合式架構(gòu)的 Llama 3在“圖文+語音”跨模態(tài)任務(wù)中,邏輯斷裂率高達(dá)28%,遠(yuǎn)高于采用原生統(tǒng)一架構(gòu)的豆包V5.2(9%)。?
原生統(tǒng)一架構(gòu)的突破成為關(guān)鍵。針對此,Emu3.5基于單一Transformer,用自回歸架構(gòu)實現(xiàn)“多模態(tài)理解與生成”原生統(tǒng)一,避免了模態(tài)間交流難題。
除了原生統(tǒng)一的問題之外,與單模態(tài)模型一樣,數(shù)據(jù)也是困擾多模態(tài)模型應(yīng)用的一個掣肘。對數(shù)據(jù)的 "量質(zhì)并重" 需求,使得數(shù)據(jù)成為AI落地的最大阻礙。
當(dāng)前,大多數(shù)多模態(tài)模型的訓(xùn)練依賴于互聯(lián)網(wǎng)上海量的“圖文對”和“短視頻”(通常5-10秒)。這些數(shù)據(jù)是碎片化的、脫離具體語境的。對此,王仲遠(yuǎn)表示,高質(zhì)量多模態(tài)數(shù)據(jù)獲取成本極高,模型從中能學(xué)到表面的關(guān)聯(lián)(如“貓”和“貓的圖片”),但很難學(xué)習(xí)到深層的、復(fù)雜的物理規(guī)律、因果邏輯和長程時序關(guān)系。這就像一個人只通過看靜態(tài)照片和幾秒的GIF圖來學(xué)習(xí)“如何騎自行車”,幾乎不可能成功。曾有年行業(yè)調(diào)研顯示,2024年,有68%的初創(chuàng)企業(yè)因數(shù)據(jù)成本放棄自主訓(xùn)練。
智源悟界·Emu3.5突破的關(guān)鍵之一,在于大規(guī)模使用了長視頻數(shù)據(jù)(如紀(jì)錄片、教學(xué)視頻、動畫片)。長視頻中包含了豐富的上下文、連貫的敘事邏輯、完整的操作流程和復(fù)雜的物理交互,是模型學(xué)習(xí)“世界如何運作”的絕佳教材。
除此之外,敏感數(shù)據(jù)處理還要面臨監(jiān)管壓力。醫(yī)療、金融等領(lǐng)域的多模態(tài)數(shù)據(jù)包含隱私信息,相關(guān)企業(yè)在應(yīng)用模型賦能的過程中,會出現(xiàn)因擔(dān)心合規(guī)問題不敢大規(guī)模訓(xùn)練的情況。
即便滿足了原生統(tǒng)一與數(shù)據(jù)需求,企業(yè)還需要面對性能與效率的平衡問題。模型性能提升往往以犧牲效率為代價,而這點在多模態(tài)領(lǐng)域表現(xiàn)突出。2024年前,主流模型生成5秒視頻平均耗時超3秒,CSDN 測試顯示,豆包V5.2在手機端生成3D 模型的響應(yīng)延遲為500ms,而 Llama3需1.2秒。而這些看似不高的延時,放在應(yīng)用場景中,卻因無法滿足實時交互而導(dǎo)致很多場景中無法應(yīng)用。
盡管困難重重,但Emu3.5的發(fā)布,清晰地指向了一個明確的趨勢——多模態(tài)Scaling Law正在被驗證,并成為繼語言預(yù)訓(xùn)練、后訓(xùn)練推理之后的“第三范式”。
如何才能成為具身智能的“大腦”?
上述問題一方面是多模態(tài)模型發(fā)展的痛點,而長遠(yuǎn)來看,這些問題也是具身智能能否“照進(jìn)現(xiàn)實”的阻礙。真正的具身智能要具備自動化感知、自動化決策、自動化執(zhí)行的能力,而這些能力的背后,僅僅依靠文生文模型是無法滿足的,還是需要多模態(tài)模型的能力。
人類之所以能夠感知、決策與執(zhí)行也都是依靠大腦在操控我們的軀體。對于具身智能而言,多模態(tài)模型就好像“大腦”,多模態(tài)大模型的發(fā)展提供了系統(tǒng)性解決方案,推動機器人從“機械執(zhí)行”向“自主決策”進(jìn)化。
據(jù)中商產(chǎn)業(yè)研究院報告數(shù)據(jù)顯示,2024年中國具身智能市場規(guī)模達(dá)8634億元,同比增長65%,預(yù)計2025年突破9731億元,其中多模態(tài)技術(shù)貢獻(xiàn)了約42%增長動力。
盡管具身智能被普遍認(rèn)為是AI的終極形態(tài)之一,但其發(fā)展長期受制于一個核心矛盾:智能的無限可能性與物理硬件及數(shù)據(jù)的極端匱乏之間的矛盾。多模態(tài)世界模型的崛起,尤其是像Emu3.5這樣的模型,正試圖從根本上破解這一矛盾。
首先,當(dāng)前具身智能發(fā)展的最大瓶頸之一是數(shù)據(jù)。真機采集成本高昂。在為一個特定的機器人任務(wù)采集真實世界數(shù)據(jù),需要昂貴的機器人硬件、精心設(shè)計的場景,以及漫長的時間。更重要的是,采集到的數(shù)據(jù)場景單一,模型一旦遇到未曾見過的桌面、光線或衣物,性能就會驟降。
此外,具身智能的發(fā)展還面臨了仿真與現(xiàn)實的鴻溝。基于物理引擎的仿真環(huán)境可以生成大量數(shù)據(jù),但其與真實世界始終存在“模擬-現(xiàn)實鴻溝”,且構(gòu)建高保真仿真環(huán)境本身成本不菲。
解決了“基本”的問題之后,具身智能還需要具備像人一樣的認(rèn)知與思考的能力。而傳統(tǒng)的機器人控制程序,或基于簡單感知的模型,缺乏對物理世界基本規(guī)律的理解。它們可以識別出“一杯咖啡”,但無法理解“這杯咖啡放在桌邊,可能被碰灑”這一物理常識。
面對這樣的難題,Emu3.5的“ Next-State Prediction ”能力,在這里發(fā)揮了關(guān)鍵作用。王仲遠(yuǎn)用抓取咖啡杯的例子生動地解釋了這一點:“當(dāng)我下指令去抓紙杯的時候,需要特別小心。因為如果角度、力道不對的話,很可能咖啡就跌落了,機器臂需要知道哪個方向抓會更穩(wěn)妥一點。” 這種對下一步世界狀態(tài)的預(yù)測能力,就是物理直覺。只有具備了這樣的物理直覺,智能體才不再是機械地執(zhí)行動作,而是能夠基于對世界動態(tài)的模擬,做出更安全、更高效、更擬人化的決策。
這相當(dāng)于為機器人安裝了一個能夠進(jìn)行“思想實驗”的大腦。在真正執(zhí)行動作之前,它可以在“腦內(nèi)”(模型內(nèi)部)模擬不同行動方案可能帶來的后果,從而選擇最優(yōu)解。這對于在動態(tài)、不確定的真實環(huán)境中運行的具身智能體(如家庭服務(wù)機器人、自動駕駛汽車)至關(guān)重要。
除此之外,目前,許多機器人系統(tǒng)采用模塊化設(shè)計,感知模塊、規(guī)劃模塊、控制模塊各自為政。這種架構(gòu)割裂了智能的整體性,導(dǎo)致系統(tǒng)笨拙、遲緩。
而若要將多模態(tài)世界大模型“植入”具身智能之中,就有可能實現(xiàn)用一個統(tǒng)一的模型,端到端地處理“感知-認(rèn)知-行動”的完整回路。模型接收包括攝像頭畫面、語言指令、傳感器數(shù)據(jù)等在內(nèi)的,多模態(tài)數(shù)據(jù)輸入,經(jīng)過內(nèi)部的理解、推理和世界狀態(tài)模擬,直接輸出控制身體的行動指令。
對此,王仲遠(yuǎn)表示,Emu3.5采用自回歸架構(gòu),使得它的可擴展性非常強。“我們希望行業(yè)積極嘗試,在我們的基座模型上繼續(xù)拓展。”
王仲遠(yuǎn)也謹(jǐn)慎地表示,這是一種新的“可能性”,且與硬件的結(jié)合仍有漫漫長路要走,但方向是明確的:一個更統(tǒng)一、更具泛化能力、更“智能”的具身智能基礎(chǔ)模型正在成為可能。它將極大地降低高級機器人技能的開發(fā)門檻,加速具身智能從實驗室走向特定場景(如工業(yè)分揀、倉儲物流),并最終進(jìn)入日常生活。
不止于具身智能
具身智能是多模態(tài)世界模型最激動人心的應(yīng)用之一,但其影響力遠(yuǎn)不止于此。當(dāng)AI擁有了對世界的深度理解和生成能力,它將在各行各業(yè)催生革命性的應(yīng)用。在醫(yī)療、工業(yè)、傳媒、交通等領(lǐng)域掀起深刻變革。這些應(yīng)用場景不僅印證技術(shù)商業(yè)價值,更展現(xiàn)人工智能重塑生產(chǎn)力的廣闊前景。
比如在醫(yī)療場景中,將多模態(tài)大模型的能力融合到以CT為代表的醫(yī)學(xué)影像技術(shù)當(dāng)中,實現(xiàn)疾病早期發(fā)現(xiàn)與精準(zhǔn)治療。
比如,通過大模型的輔助,能幫助醫(yī)生快速的識別諸如X光片、CT等病歷,從而大幅提升醫(yī)生工作效率,也能降低患者等待的時間。“原本每天能審閱50張CT片子,未來每天能審閱500張/天,那么醫(yī)療效果的提升,將讓患者的就醫(yī)體驗,以及醫(yī)生的工作體驗都得以改善。”IEEE標(biāo)準(zhǔn)協(xié)會新標(biāo)準(zhǔn)立項委員會副主席兼IEEE數(shù)字金融與經(jīng)濟(jì)標(biāo)準(zhǔn)委員會主席林道莊曾與筆者分享了多模態(tài)模型應(yīng)用的場景。
而在基層醫(yī)療機構(gòu),這種技術(shù)價值更為突出。河南省某縣醫(yī)院部署該系統(tǒng)后,疑難病例診斷準(zhǔn)確率從68%提升至89%,患者外轉(zhuǎn)率下降41%。其核心優(yōu)勢在于"跨模態(tài)互補"——影像數(shù)據(jù)識別結(jié)構(gòu)異常,文本數(shù)據(jù)提供病史背景,基因數(shù)據(jù)預(yù)測病變風(fēng)險,形成立體診斷視角。
與此同時,醫(yī)生還能利用模態(tài)模型能夠根據(jù)患者個體特征生成定制化治療方案。北京大學(xué)腫瘤醫(yī)院開發(fā)的智能診療系統(tǒng),通過分析患者影像資料、基因圖譜、治療史與實時生理數(shù)據(jù),為晚期肝癌患者生成化療、靶向治療與免疫治療的組合方案。測試顯示,采用個性化方案的患者中位生存期延長6.8個月,治療副作用發(fā)生率降低34%。
這種方案生成能力依賴大規(guī)模多模態(tài)醫(yī)療數(shù)據(jù)訓(xùn)練。該系統(tǒng)使用涵蓋12萬患者的多中心數(shù)據(jù)集,包含45萬份影像、18萬份病歷與 9 萬條基因序列,通過自監(jiān)督學(xué)習(xí)掌握不同治療手段與患者反應(yīng)的關(guān)聯(lián)規(guī)律。
從多模態(tài)大模型在各行業(yè)的應(yīng)用就不難看出,多模態(tài)大模型的價值已經(jīng)不僅僅在于生成更逼真的內(nèi)容,而在于構(gòu)建AI與物理世界交互的“通用語言”。當(dāng)模型能夠像人類一樣理解視覺信號、語言指令與物理反饋的內(nèi)在關(guān)聯(lián)時,人工智能才算真正邁出數(shù)字世界的邊界,走進(jìn)人類生活的每個角落。(文|Leo張ToB雜談,作者|張申宇,編輯丨蓋虹達(dá))





京公網(wǎng)安備 11011402013531號