金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
如果從技術(shù)角度出發(fā),選擇一個(gè)最能代表如今大模型發(fā)展趨勢(shì)的關(guān)鍵詞,那么在剛剛結(jié)束的WAIC 2025(世界人工智能大會(huì))上,“多模態(tài)智能”無(wú)疑脫穎而出。
當(dāng)行業(yè)還在激辯“Scaling Law”是否走到盡頭時(shí),一些前瞻者已經(jīng)將目光投向了更遠(yuǎn)的地方。
大會(huì)上,商湯科技發(fā)布了國(guó)內(nèi)首個(gè)實(shí)現(xiàn)“圖文交錯(cuò)思維”的商業(yè)級(jí)大模型——日日新6.5,并系統(tǒng)性地提出了從多模態(tài)感知、多模態(tài)推理,再到與物理世界交互的完整演進(jìn)路線圖,直指通用人工智能(AGI)的終極目標(biāo)。
![]()
這一系列發(fā)布引發(fā)了業(yè)界廣泛關(guān)注和思考:
為什么多模態(tài)是AI的未來(lái)?真正的原生多模態(tài)模型是如何構(gòu)建的?在通往AGI的漫漫長(zhǎng)路上,我們究竟面臨哪些核心挑戰(zhàn)?
就在今天,商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家林達(dá)華教授發(fā)布了一篇萬(wàn)字長(zhǎng)文,深入剖析了商湯在多模態(tài)通用智能道路上的思考與實(shí)踐。
![]()
這篇文章不僅是對(duì)商湯自身技術(shù)路徑的復(fù)盤,更解答了當(dāng)前AI領(lǐng)域關(guān)于路徑、數(shù)據(jù)、模型架構(gòu)、商業(yè)化等一系列關(guān)鍵問(wèn)題。
現(xiàn)在,就讓我們一同深入解讀這篇長(zhǎng)文,探尋通往AGI的答案。
怎樣才算真正的“原生多模態(tài)”?
在探討如何實(shí)現(xiàn)之前,我們首先要明確一個(gè)根本問(wèn)題:為什么是多模態(tài)?
林達(dá)華在文章中給出了一個(gè)核心判斷:智能的核心是與外界進(jìn)行自主交互的能力,而世界是以多元形態(tài)存在的。
語(yǔ)言只是描述世界的工具,但不是世界本身。人類通過(guò)眼睛、耳朵等多種感官接收信息,并將這些信息融合,形成對(duì)世界的完整認(rèn)知。
因此,僅僅依賴文本數(shù)據(jù)的語(yǔ)言模型,無(wú)法構(gòu)建真正意義上的AGI。AI若要具備通用性,就必須能夠處理和理解圖像、聲音、視頻等多種模態(tài)的信息。這正是商湯將多模態(tài)錨定為技術(shù)主軸的根本原因。
明確了方向,路徑的選擇便至關(guān)重要。當(dāng)前,實(shí)現(xiàn)多模態(tài)模型主要有兩種技術(shù)路徑:
適應(yīng)訓(xùn)練 (Adapter-based Training):這是一種“嫁接”模式。將一個(gè)預(yù)訓(xùn)練好的視覺(jué)編碼器(Visual Encoder)通過(guò)一個(gè)輕量的投影器(Projector)連接到一個(gè)已經(jīng)訓(xùn)練好的大語(yǔ)言模型上。在后訓(xùn)練階段,固定語(yǔ)言模型,只微調(diào)視覺(jué)模塊和投影器,讓視覺(jué)特征“適應(yīng)”語(yǔ)言模型的輸入空間。這是目前業(yè)界,尤其是國(guó)內(nèi)廠商,為了快速上線多模態(tài)能力而普遍采用的方式,成本較低。原生訓(xùn)練 (Native Training):這是一種“融合”模式。在預(yù)訓(xùn)練階段就將文本、圖像等多種模態(tài)的數(shù)據(jù)混合在一起進(jìn)行訓(xùn)練。模型從“出生”開始,就在一個(gè)統(tǒng)一的架構(gòu)中學(xué)習(xí)如何理解和關(guān)聯(lián)不同模態(tài)的信息。Google、OpenAI等頂尖機(jī)構(gòu)均采用此路徑。
商湯在早期也曾嘗試過(guò)適應(yīng)訓(xùn)練,但很快便發(fā)現(xiàn)了其局限性。這種“后補(bǔ)”的多模態(tài)能力,更像是僵硬地遵循范例,模型并未真正深入理解語(yǔ)言和視覺(jué)的內(nèi)在關(guān)聯(lián)。
例如,當(dāng)看到一張有六根手指的手掌圖片時(shí),這類模型很可能因?yàn)閺?qiáng)大的語(yǔ)言先驗(yàn)而回答“五個(gè)手指”。
因此,在2024年5月,商湯下定決心,投入數(shù)千P的算力進(jìn)行了一系列大規(guī)模對(duì)比實(shí)驗(yàn),最終確立了“原生多模態(tài)”的技術(shù)路線,并形成了以“融合模型”為核心的戰(zhàn)略。
實(shí)驗(yàn)得出的結(jié)論顛覆了當(dāng)時(shí)的普遍認(rèn)知:
一個(gè)模型就夠了:在合適的數(shù)據(jù)配比下,一個(gè)原生的多模態(tài)融合模型,無(wú)論是在純文本任務(wù)還是圖文任務(wù)上,其表現(xiàn)都優(yōu)于各自獨(dú)立的專門模型。融合時(shí)機(jī)是關(guān)鍵:視覺(jué)和語(yǔ)言的融合,不應(yīng)過(guò)早,也不應(yīng)過(guò)晚。在預(yù)訓(xùn)練的中段開始融合訓(xùn)練,效果最佳。過(guò)早,模型基礎(chǔ)能力尚未建立;過(guò)晚(如僅在SFT階段),則融合不充分,泛化性弱。
基于這一判斷,商湯果斷放棄了語(yǔ)言模型和圖文模型分立的“雙軌制”,將所有研發(fā)力量都匯聚到一個(gè)統(tǒng)一的融合模型上。
從“日日新6.0”開始,商湯只發(fā)布多模態(tài)模型,這在國(guó)內(nèi)大模型廠商中獨(dú)樹一幟。這一戰(zhàn)略選擇的背后,是對(duì)AGI本質(zhì)的深刻洞察和對(duì)技術(shù)第一性原理的堅(jiān)持。
多模態(tài)智能的演進(jìn)路徑:如何讓模型像人一樣思考?
確立了“原生多模態(tài)”的路線,下一個(gè)問(wèn)題是,如何一步步讓模型從簡(jiǎn)單的感知走向復(fù)雜的、像人一樣的思考?
商湯提出了一個(gè)清晰的“四次破壁”演進(jìn)框架,描繪了人工智能能力邊界不斷被數(shù)據(jù)驅(qū)動(dòng)打破的歷程。
第一次破壁:Transformer實(shí)現(xiàn)長(zhǎng)序列建模,這是大語(yǔ)言模型誕生的基礎(chǔ)。
Transformer架構(gòu)使得模型能夠處理長(zhǎng)達(dá)數(shù)千甚至上萬(wàn)個(gè)詞元的文本序列,從而不再局限于短語(yǔ)和語(yǔ)法,而是能夠理解段落、文章乃至?xí)械母唠A知識(shí)和邏輯。
第二次破壁:語(yǔ)言與視覺(jué)的會(huì)合,形成多模態(tài)理解,大語(yǔ)言模型的高階語(yǔ)言能力,為高階圖像理解提供了“錨點(diǎn)”。
一幅圖像的意義不再是幾個(gè)孤立的標(biāo)簽(如“貓”、“桌子”),而可以是一個(gè)完整的故事描述。通過(guò)將海量圖文數(shù)據(jù)關(guān)聯(lián)訓(xùn)練,模型學(xué)會(huì)了跨模態(tài)的理解,這是構(gòu)建多模態(tài)智能的基礎(chǔ)。
第三次破壁:突破邏輯思維與形象思維的邊界,實(shí)現(xiàn)多模態(tài)推理,這是當(dāng)前的前沿焦點(diǎn),也是“日日新6.5”實(shí)現(xiàn)的關(guān)鍵突破。
人類的思考并非純粹的線性邏輯推演,而是邏輯思維與形象思維(或稱直覺(jué)思維)的結(jié)合。所謂“一圖勝千言”,圖形化的思考能幫助我們更快抓住問(wèn)題本質(zhì)。
然而,此前的主流多模態(tài)模型,其“思考”過(guò)程仍然是純文本的“思維鏈”(Chain-of-Thought)。圖像僅僅作為初始輸入,被轉(zhuǎn)換成文本描述后,后續(xù)的推理就與圖像無(wú)關(guān)了。這并非真正的多模態(tài)思考。
商湯的創(chuàng)新在于引入了“圖文交錯(cuò)思維鏈”。在模型的思考過(guò)程中,它不僅能生成文字,還能在需要時(shí)調(diào)用工具,在原圖上進(jìn)行編輯(如放大、標(biāo)注、畫輔助線),或生成新的示意圖,并將這些中間生成的圖片插入思維鏈中,形成“圖文并茂”的思考路徑。
在具體實(shí)現(xiàn)上,商湯選擇了務(wù)實(shí)的“兩步走”路徑。
第一步,通過(guò)調(diào)用工具進(jìn)行圖像編輯的方式來(lái)構(gòu)建圖文交錯(cuò)思維鏈。他們認(rèn)為,當(dāng)前的目標(biāo)是“以視覺(jué)要素引導(dǎo)思維”,而非追求電影級(jí)的高清畫質(zhì),因此效率和精準(zhǔn)性是首要考量。
而目前的圖像生成技術(shù),無(wú)論在可靠性還是效率上都難以滿足要求。基于此,通過(guò)工具編輯的方式可以高效且精準(zhǔn)地實(shí)現(xiàn)構(gòu)圖目標(biāo)。
這個(gè)過(guò)程的本質(zhì)是構(gòu)建了一個(gè)“對(duì)內(nèi)”(Introspective)的智能體。它調(diào)用工具不是為了與外部世界交互,而是為了與自身的思維過(guò)程交互,修改和優(yōu)化自己的“思考草稿”。
第二步的探索,則是基于多模態(tài)理解生成統(tǒng)一的機(jī)制,實(shí)現(xiàn)內(nèi)生的圖文混合思考。
為了實(shí)現(xiàn)第一步,商湯通過(guò)“人工構(gòu)造少量種子數(shù)據(jù) + 強(qiáng)化學(xué)習(xí)(RL)放大”的范式,讓模型學(xué)會(huì)了這種新的思考模式。
實(shí)驗(yàn)數(shù)據(jù)顯示,經(jīng)過(guò)多輪強(qiáng)化學(xué)習(xí)后,模型的多模態(tài)綜合推理能力獲得了驚人的提升(從54.2分躍升至76.3分)。
第四次破壁:突破與物理空間的邊界,實(shí)現(xiàn)與真實(shí)世界的交互,這是通向AGI的終極一步,即具身智能(Embodied AI)。
讓AI擁有“身體”,在物理世界中行動(dòng)。其核心挑戰(zhàn)在于交互數(shù)據(jù)的稀缺性。通過(guò)世界模型(World Model),在虛擬世界中進(jìn)行大規(guī)模、高效的模擬訓(xùn)練,被認(rèn)為是解決這一問(wèn)題的關(guān)鍵途徑。
商湯的多模態(tài)模型為世界模型提供了關(guān)于物理世界的海量先驗(yàn)知識(shí),而其在智能駕駛等業(yè)務(wù)中積累的真實(shí)數(shù)據(jù),則為世界模型的構(gòu)建和對(duì)齊提供了堅(jiān)實(shí)的基礎(chǔ)。
數(shù)據(jù)體系:如何破解多樣性、質(zhì)量、效率的“不可能三角”?
如果說(shuō)模型架構(gòu)決定了學(xué)習(xí)的效率,那么數(shù)據(jù)則直接定義了模型能力的邊界。尤其對(duì)于原生多模態(tài)模型,其成功與否,關(guān)鍵就在于數(shù)據(jù)。
林達(dá)華在文章中詳細(xì)闡述了商湯應(yīng)對(duì)數(shù)據(jù)挑戰(zhàn)的策略,核心是圍繞多樣性、質(zhì)量和生產(chǎn)效率這三個(gè)目標(biāo),構(gòu)建了一套先進(jìn)的數(shù)據(jù)生產(chǎn)體系。
挑戰(zhàn)一:圖文對(duì)數(shù)據(jù)的稀缺
多模態(tài)訓(xùn)練最關(guān)鍵的數(shù)據(jù)是強(qiáng)關(guān)聯(lián)的“圖文對(duì)”(Image-Text Pairs);然而,互聯(lián)網(wǎng)上天然存在的圖文對(duì)數(shù)量稀少,且質(zhì)量參差不齊。大部分網(wǎng)頁(yè)中的圖片和文字關(guān)聯(lián)很弱(如新聞配圖)。
商湯的解決方案是大規(guī)模自動(dòng)化構(gòu)造。他們投入了巨大力量,研發(fā)從文本出發(fā)合成圖像、以及從圖像出發(fā)生成多樣化問(wèn)答對(duì)的自動(dòng)化數(shù)據(jù)管線。
目前,在商湯的跨模態(tài)訓(xùn)練數(shù)據(jù)中,高質(zhì)量的構(gòu)造圖文對(duì)占比已超過(guò)70%,這成為其多模態(tài)能力提升的關(guān)鍵引擎。
挑戰(zhàn)二:數(shù)據(jù)質(zhì)量的把控
數(shù)據(jù)質(zhì)量是模型的生命線。商湯建立了一套嚴(yán)格的“續(xù)訓(xùn)驗(yàn)證”機(jī)制。每一批新生產(chǎn)的數(shù)據(jù),在正式投入大規(guī)模訓(xùn)練前,都必須先在最新版的模型上進(jìn)行小規(guī)模的繼續(xù)訓(xùn)練。只有當(dāng)實(shí)驗(yàn)證明這批數(shù)據(jù)能帶來(lái)性能增益時(shí),才會(huì)被“準(zhǔn)入”。
這種以模型效果為唯一標(biāo)準(zhǔn)的檢驗(yàn)方法,確保了數(shù)據(jù)質(zhì)量的持續(xù)提升。
挑戰(zhàn)三:高階專業(yè)數(shù)據(jù)的獲取
隨著模型能力的提升,對(duì)高階專業(yè)數(shù)據(jù)的需求日益迫切,例如數(shù)學(xué)題的解題步驟、醫(yī)療影像的診斷邏輯、代碼設(shè)計(jì)的架構(gòu)思考等。這些數(shù)據(jù)能引導(dǎo)模型從“知其然”走向“知其所以然”。
這類數(shù)據(jù)稀缺且昂貴。商湯采用了“人寫種子 + 自動(dòng)擴(kuò)展 + 強(qiáng)化學(xué)習(xí)”的三段式方法。
首先,由領(lǐng)域?qū)<一蚋咚窖芯繂T人工編寫少量高質(zhì)量的“種子”數(shù)據(jù)(如一條復(fù)雜的圖文交錯(cuò)思維鏈)。
然后,利用這些種子,通過(guò)多智能體協(xié)作的自動(dòng)化管線進(jìn)行大規(guī)模的增廣和合成。
最后,將這些合成數(shù)據(jù)作為起點(diǎn),通過(guò)強(qiáng)化學(xué)習(xí)讓模型在解決問(wèn)題的過(guò)程中自發(fā)探索出更復(fù)雜、更多樣的思維路徑。
模型架構(gòu):追求尺寸還是追求效率?
在大模型時(shí)代早期,“越大越好”的尺度定律深入人心。然而,隨著技術(shù)發(fā)展和商業(yè)化應(yīng)用的深入,業(yè)界的風(fēng)向正在悄然改變。
商湯明確提出,模型架構(gòu)設(shè)計(jì)的核心是效率。一個(gè)好的架構(gòu),應(yīng)該能以更低的成本實(shí)現(xiàn)從數(shù)據(jù)到能力的轉(zhuǎn)化。
在“日日新6.5”中,商湯進(jìn)行了一項(xiàng)重要的架構(gòu)優(yōu)化。
他們重新思考了“眼睛”(視覺(jué)編碼器)和“大腦”(MLLM主干)的功能定位,認(rèn)為兩者有本質(zhì)區(qū)別:“眼睛”捕捉的是受分辨率影響的連續(xù)視覺(jué)信號(hào),而“大腦”處理的是離散的語(yǔ)言token。
這決定了,視覺(jué)感知和語(yǔ)言模型,應(yīng)該有不一樣的模型結(jié)構(gòu)和學(xué)習(xí)方式。基于此,他們認(rèn)為視覺(jué)編碼器應(yīng)聚焦于感知功能,對(duì)視覺(jué)信號(hào)更敏感;而涉及到與語(yǔ)言相關(guān)的處理,應(yīng)及早和LLM主干進(jìn)行融合。
因此,在“日日新6.5”中,他們推動(dòng)了視覺(jué)編碼器的輕量化(參數(shù)量從60億減至10億),以實(shí)現(xiàn)更敏捷的感知;同時(shí)將MLLM主干網(wǎng)絡(luò)變得更深更窄,以適應(yīng)深度推理的需要。
這次架構(gòu)調(diào)整,結(jié)合數(shù)據(jù)優(yōu)化,使得模型在性能相當(dāng)?shù)那闆r下,效率提升了超過(guò)3倍,實(shí)現(xiàn)了比肩甚至超越頂級(jí)模型的效費(fèi)比。
對(duì)于模型尺寸的未來(lái),商湯判斷,業(yè)界將趨于務(wù)實(shí),更優(yōu)的性能-成本曲線遠(yuǎn)比單純追求更大的參數(shù)規(guī)模更重要。未來(lái),模型架構(gòu)的演進(jìn)將圍繞“提效”與“融合”兩大主題:
提效:通過(guò)更深度的稀疏化(如MoE)、功能分化(如知識(shí)與推理解耦)等方式,進(jìn)一步降低計(jì)算能耗。融合:推動(dòng)多模態(tài)理解與生成的統(tǒng)一(實(shí)現(xiàn)更可控的生成)、快思考(常規(guī)模型)與慢思考(推理模型)的統(tǒng)一(讓模型根據(jù)問(wèn)題難度自主選擇思考深度),從而突破現(xiàn)有能力邊界。
創(chuàng)新力的源泉:商湯做對(duì)了什么?
從率先探索視覺(jué)大模型,到國(guó)內(nèi)最早發(fā)布多模態(tài)模型,再到如今引領(lǐng)圖文交錯(cuò)思維,商湯在技術(shù)浪潮中總能踏準(zhǔn)節(jié)奏,甚至領(lǐng)先一步。這種持續(xù)的創(chuàng)新力從何而來(lái)?林達(dá)華的文章也揭示了背后的深層原因。
1、技術(shù)基因的傳承與遠(yuǎn)見
商湯以計(jì)算機(jī)視覺(jué)起家,這不僅意味著技術(shù)上的深厚積累,更重要的是,這讓商湯從一開始就必須處理海量的、作為“世界硬拷貝”的圖像和視頻數(shù)據(jù)。這種與真實(shí)世界數(shù)據(jù)打交道的經(jīng)驗(yàn),使其對(duì)多模態(tài)的價(jià)值和必然性有著比純語(yǔ)言模型公司更早、更深刻的理解。
2、高效且富有活力的研究組織
面對(duì)大模型時(shí)代對(duì)資源和效率的極高要求,商湯對(duì)研究組織進(jìn)行了重構(gòu)。通過(guò)資源統(tǒng)一調(diào)度,將算力和數(shù)據(jù)集中到核心的融合模型上;設(shè)立專項(xiàng)創(chuàng)新小組,對(duì)“圖文交錯(cuò)思維”等高風(fēng)險(xiǎn)、高回報(bào)的方向進(jìn)行探索;建立獨(dú)立評(píng)測(cè)體系,以客觀、公正的評(píng)測(cè)結(jié)果指導(dǎo)研發(fā)方向,避免“自說(shuō)自話”。這種戰(zhàn)略上高度聚焦且長(zhǎng)期堅(jiān)持,技術(shù)路徑上鼓勵(lì)創(chuàng)新、敏捷迭代,且能保留活力的組織模式,是其戰(zhàn)斗力的核心保障。
3、技術(shù)理想與商業(yè)價(jià)值的正向循環(huán)
文章最后強(qiáng)調(diào),通向AGI的道路是一場(chǎng)長(zhǎng)跑。技術(shù)理想需要商業(yè)價(jià)值的護(hù)航才能行穩(wěn)致遠(yuǎn)。商湯沒(méi)有將技術(shù)和商業(yè)視為對(duì)立面,而是將它們視為互為因果的兩個(gè)環(huán)節(jié),致力于構(gòu)建“基礎(chǔ)設(shè)施-模型-應(yīng)用”三位一體的正向循環(huán)。
應(yīng)用場(chǎng)景中遇到的真實(shí)問(wèn)題,會(huì)牽引出關(guān)鍵的科研課題,融入研發(fā)規(guī)劃;而技術(shù)上的突破,則會(huì)為產(chǎn)品構(gòu)筑長(zhǎng)期的競(jìng)爭(zhēng)力。
林達(dá)華的萬(wàn)字長(zhǎng)文,不僅是對(duì)商湯多模態(tài)戰(zhàn)略的一次全面解讀,更是對(duì)當(dāng)前AI發(fā)展核心問(wèn)題的一次系統(tǒng)性回答。
從路徑選擇的哲學(xué)思辨,到數(shù)據(jù)工程的精耕細(xì)作;從模型架構(gòu)的務(wù)實(shí)取舍,到組織能力的持續(xù)進(jìn)化,我們能看到一家技術(shù)公司在面對(duì)星辰大海時(shí)的清醒、專注與長(zhǎng)期主義。
在通往AGI的征途上,沒(méi)有永遠(yuǎn)正確的地圖,只有不斷探索的腳步。商湯所選擇的這條原生多模態(tài)之路,無(wú)疑為整個(gè)行業(yè)提供了一個(gè)極具價(jià)值的參考范本。





京公網(wǎng)安備 11011402013531號(hào)