![]()
這項由meta超級智能實驗室和牛津大學的韓俊林、湯盛邦、范大衛(wèi)等研究團隊完成的重要研究,發(fā)表于2025年1月,論文編號為arXiv:2509.26625v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
近年來,一個令人困惑的現(xiàn)象開始引起科學家們的注意:那些只用文字訓練的大型語言模型,竟然在處理圖像任務時表現(xiàn)出了驚人的能力。這就好比一個從未見過畫筆的人,僅僅通過閱讀繪畫理論書籍,就能畫出精美的作品。這種看似不可能的現(xiàn)象背后究竟隱藏著什么秘密?
meta的研究團隊決定深入探究這個謎題。他們發(fā)現(xiàn),當我們給這些"純文字出身"的AI模型配上視覺編碼器,然后進行少量的多模態(tài)訓練后,它們就能在各種視覺任務中表現(xiàn)得相當出色。更令人驚訝的是,有些模型甚至在從未"見過"圖像的情況下,就能完成某些視覺推理任務。
為了徹底理解這種現(xiàn)象,研究團隊設計了一套系統(tǒng)性的實驗方案。他們像調配食譜一樣,精心調配不同類型的文本數(shù)據,訓練了超過100個不同規(guī)模的模型,消耗了50萬GPU小時的計算資源。這項研究的規(guī)模之大,就像是在建造一個巨大的實驗工廠,專門用來生產各種"口味"的AI模型。
研究團隊的核心發(fā)現(xiàn)可以用一個簡單的比喻來理解:大語言模型在純文本訓練過程中獲得的"視覺能力",實際上是兩種不同技能的組合,就像一個萬能工具箱里裝著兩套完全不同的工具。第一套是"感知工具",負責識別和理解圖像中的基本元素,比如物體、顏色、形狀等;第二套是"推理工具",負責分析這些元素之間的關系,進行邏輯思考和問題解決。
更有趣的是,這兩套工具的來源竟然大不相同。推理能力主要來自于代碼、數(shù)學、學術論文等需要嚴密邏輯的文本內容。當模型學習編程時,它實際上在培養(yǎng)著一種通用的邏輯思維能力,這種能力可以無縫地轉移到視覺推理任務中。而感知能力則更多地來自于各種各樣的網絡文本,特別是那些描述視覺世界的內容。
研究團隊還發(fā)現(xiàn)了一個重要的"配方比例"。他們發(fā)現(xiàn),要想培養(yǎng)出既能"看"又能"想"的AI模型,需要在訓練數(shù)據中加入大約60%的推理型文本(如代碼和數(shù)學內容)和15%的視覺描述文本。這個比例就像烹飪中的黃金配方,太多或太少都會影響最終的效果。
一、視覺先驗的雙重結構:感知與推理的奇妙分工
當研究團隊深入分析這些模型的內在機制時,他們發(fā)現(xiàn)了一個令人驚訝的事實:所謂的"視覺能力"其實并不是一個整體,而是由兩個相對獨立的系統(tǒng)組成的。這種發(fā)現(xiàn)就像是拆解一臺復雜的機器,發(fā)現(xiàn)里面其實裝著兩個不同用途的引擎。
為了驗證這個假設,研究團隊設計了一個精巧的實驗。他們訓練了105個不同的模型,然后分析這些模型在四種不同類型視覺任務上的表現(xiàn):通用視覺理解、知識密集型任務、文字識別類任務,以及視覺推理任務。通過統(tǒng)計分析,他們發(fā)現(xiàn)了一個有趣的模式。
通用視覺理解和文字識別任務之間存在顯著的相關性,這暗示著它們依賴于同一種底層能力——我們可以稱之為"感知引擎"。這個引擎就像人類的眼睛,負責接收和處理視覺信息的基礎工作。相比之下,知識密集型任務和視覺推理任務也表現(xiàn)出相關性,它們依賴的是另一種能力——"推理引擎",就像人類的大腦,負責分析、思考和解決問題。
更令人驚訝的是,這兩個引擎之間的相關性非常微弱,甚至有時呈現(xiàn)負相關。這意味著一個模型在基礎視覺識別方面的能力強,并不意味著它在視覺推理方面也一定出色,反之亦然。這種發(fā)現(xiàn)顛覆了許多人的直覺認知,原來"看得清"和"想得通"真的是兩碼事。
為了進一步驗證這個發(fā)現(xiàn),研究團隊進行了一個巧妙的對照實驗。他們嘗試用三種不同的視覺編碼器(可以理解為三種不同品牌的"眼睛")來配合經過不同比例推理文本訓練的語言模型。結果發(fā)現(xiàn),無論使用哪種"眼睛",那些經過更多推理文本訓練的模型在視覺推理任務上都表現(xiàn)得更好。這證明了推理能力確實是一種可以跨模態(tài)遷移的通用技能。
但感知能力的表現(xiàn)就大不相同了。不同的視覺編碼器配合同一個語言模型,在基礎視覺任務上的表現(xiàn)差異很大。這說明感知能力更依賴于視覺系統(tǒng)本身的特性,而不是語言模型的推理能力。
這個發(fā)現(xiàn)的實際意義非常重大。它告訴我們,如果想要提升AI模型的視覺推理能力,重點應該放在用更多高質量的推理文本來訓練語言模型;而如果想要改善基礎的視覺識別能力,則需要在視覺編碼器和視覺指令調優(yōu)數(shù)據上下功夫。
二、推理能力的跨模態(tài)魔法:從代碼思維到視覺智慧
研究團隊的一個重要發(fā)現(xiàn)是,通過代碼和數(shù)學文本訓練出的推理能力,竟然可以直接應用到視覺任務中,這種現(xiàn)象就像是學會了騎自行車的人可以很快學會騎摩托車一樣神奇。
為了驗證這個假設,研究團隊設計了一個特殊的實驗。他們讓模型不僅給出視覺問題的答案,還要解釋自己的推理過程。然后,他們用另一個AI系統(tǒng)來評估這些解釋的質量,包括邏輯嚴密性和推理深度兩個維度。
結果令人震驚。當模型接受的代碼訓練比例從0%增加到100%時,其視覺推理解釋的邏輯嚴密性從4.52%提升到9.52%,而推理深度更是從8.31個文本單位激增到53.25個單位,提升了六倍多。這種提升幅度就像是一個原本只會簡單算術的人,突然能夠解決復雜的數(shù)學證明題一樣驚人。
研究團隊還提供了一個生動的例子來說明這種差異。在一個需要判斷圖像中哪個邊界框更準確地圈出叉子的任務中,沒有接受代碼訓練的模型給出的回答非常簡單粗糙,基本上就是直接說答案。而接受了大量代碼訓練的模型則能夠詳細解釋什么是邊界框,如何判斷其準確性,并且逐步分析為什么某個答案是正確的。
這種現(xiàn)象的背后機制其實很容易理解。代碼本質上是一種高度結構化的邏輯表達方式,它要求編寫者必須遵循嚴格的邏輯規(guī)則,每一步都要清晰明確。當AI模型學習代碼時,它實際上在學習如何進行系統(tǒng)性思考,如何將復雜問題分解為可管理的小步驟,如何確保每個步驟之間的邏輯連貫性。
更令人驚訝的是,這種推理能力的遷移是如此徹底,以至于模型甚至繼承了代碼的表達風格。那些經過大量代碼訓練的模型,在解釋視覺問題時往往會生成更長、更詳細、更有條理的答案,就像程序員寫代碼注釋一樣。
數(shù)學訓練也產生了類似的效果,雖然程度稍弱一些。這證明了任何需要嚴密邏輯思維的文本內容都能夠培養(yǎng)這種跨模態(tài)的推理能力。研究團隊的發(fā)現(xiàn)與最近其他研究的結果高度一致,這些研究發(fā)現(xiàn)推理能力可以在不同語言之間遷移,而且語言強化學習訓練也能提升多模態(tài)推理能力。
這個發(fā)現(xiàn)的深遠意義在于,它為我們提供了一個全新的視角來理解智能的本質。推理能力似乎確實是一種獨立于具體模態(tài)的通用認知技能,無論是處理文字、代碼、數(shù)學公式還是圖像,其底層的邏輯思維過程是相通的。
三、數(shù)據配方的黃金比例:60%推理加15%視覺的完美組合
在探索了視覺能力的內在結構之后,研究團隊開始尋找培養(yǎng)這種能力的最佳"營養(yǎng)配方"。他們的目標是找到一個既能保持強大語言能力,又能顯著提升視覺表現(xiàn)的數(shù)據混合比例。
研究團隊首先進行了一個大規(guī)模的網格搜索實驗。他們構建了24種不同的數(shù)據配方,推理型文本的比例從50%到85%不等,視覺描述文本的比例從5%到30%變化。每種配方都被用來訓練一個3B參數(shù)的模型,總訓練數(shù)據量為30B個標記。這就像是一個巨大的烘焙實驗室,每個烤箱里都在制作不同配方的蛋糕。
實驗結果顯示,最佳的視覺導向配方包含約60%的推理型內容和15%的視覺描述內容。這個比例不是通過理論推導得出的,而是通過大量實驗驗證的經驗發(fā)現(xiàn)。有趣的是,這個結果表明,培養(yǎng)強大的視覺能力并不需要大量的視覺描述文本,關鍵在于建立一個強大的推理基礎,然后用少量但精確的視覺知識來"激活"這種能力。
接下來,研究團隊將注意力轉向了更實用的場景。他們選擇了六個主要的數(shù)據源:網絡爬蟲文本、百科全書、學術論文、文學作品、數(shù)學內容和代碼。然后,他們設計了一個從"語言友好"到"視覺友好"的漸進式實驗。
語言友好的基線配方包含50%的網絡文本、2.5%的百科內容、2.5%的學術論文、20%的文學作品、5%的數(shù)學內容和20%的代碼。這個配方在語言任務上表現(xiàn)最佳,困惑度達到13.46,文本準確率為53.0%。
然后,研究團隊設計了十個中間配方(mix0到mix10),逐步增加推理型內容的比例,同時減少一般性文本的比例。每個配方都用50B標記進行訓練,以確保結果的穩(wěn)定性。
最終的實驗結果清晰地展示了一個權衡關系:隨著推理型內容比例的增加,視覺能力逐步提升,而語言能力略有下降。在這個權衡中,mix6配方脫穎而出,成為最平衡的選擇。這個配方包含40%的網絡文本、8%的百科內容、5%的學術論文、2%的文學作品、10%的數(shù)學內容和35%的代碼。
mix6配方實現(xiàn)了33.3%的視覺準確率,同時將語言性能的下降控制在最小范圍內。更重要的是,這種性能提升是全面的,不僅在視覺推理任務上表現(xiàn)出色,在基礎視覺理解任務上也有顯著改善。
這個發(fā)現(xiàn)的實際價值在于,它為AI開發(fā)者提供了一個具體的指導方案。與其盲目地增加訓練數(shù)據的規(guī)模,不如精心設計數(shù)據的組成比例,用較少的資源獲得更好的效果。
四、感知能力的復雜起源:多樣性勝過專一性
與推理能力的清晰來源形成鮮明對比,感知能力的培養(yǎng)要復雜得多。研究團隊發(fā)現(xiàn),要想讓AI模型具備良好的基礎視覺識別能力,關鍵不在于某種特定類型的文本,而在于文本的多樣性和豐富性。
為了深入研究這個問題,研究團隊創(chuàng)建了一個新的評估工具——多層次存在基準測試(MLE-Bench)。這個基準測試專門用來評估模型識別不同大小物體的能力。測試內容包括1861張圖像,根據目標物體占據圖像像素的比例,分為小物體(0-30%)、中等物體(30-60%)和大物體(60-100%)三個類別。
研究團隊用這個基準測試評估了16個分別在單一數(shù)據源上訓練的模型。結果顯示,在網絡爬蟲數(shù)據上訓練的模型在整體表現(xiàn)上最佳,特別是在識別小到中等大小的物體方面表現(xiàn)突出。但對于占據畫面主要部分的大物體,這種優(yōu)勢就沒那么明顯了。
這個發(fā)現(xiàn)揭示了感知能力的一個重要特征:它具有層次性。識別小物體需要模型對細節(jié)有敏銳的感知能力,而識別大物體則相對容易。網絡爬蟲文本之所以在培養(yǎng)這種能力方面效果最好,是因為這類文本包含了對各種視覺概念的豐富描述,從常見的日常物品到罕見的專業(yè)術語,從宏觀場景到微觀細節(jié)。
研究團隊還進行了一個有趣的對比實驗。他們分析了視覺指令調優(yōu)階段不同類型數(shù)據的作用。他們將指令調優(yōu)數(shù)據分為感知導向和推理導向兩類,然后逐步移除這些數(shù)據,觀察模型性能的變化。
結果發(fā)現(xiàn),移除感知導向的指令數(shù)據對基礎視覺任務(如文字識別和通用視覺理解)的影響最大,性能下降幅度達到5-10%。而移除推理導向的指令數(shù)據主要影響高級視覺推理任務,對基礎視覺任務的影響較小。
這個發(fā)現(xiàn)進一步證實了感知和推理能力的獨立性。基礎的視覺識別能力更依賴于大量多樣化的視覺描述和后期的視覺指令調優(yōu),而高級的視覺推理能力主要來源于語言模型在預訓練階段獲得的邏輯思維能力。
更有趣的是,研究團隊發(fā)現(xiàn)了一個看似矛盾的現(xiàn)象:僅用25%視覺描述文本訓練的模型,在某些復雜視覺理解任務上的表現(xiàn),竟然比用100%視覺文本訓練的模型更好。這說明,簡單地增加視覺描述文本的比例并不能自動提升深層的視覺理解能力,有時候過多的描述性內容反而可能干擾模型學習更抽象的視覺概念。
五、實踐驗證:1萬億標記的大規(guī)模實驗
理論發(fā)現(xiàn)需要實踐驗證。研究團隊決定將他們的發(fā)現(xiàn)應用到真正的大規(guī)模訓練中,來檢驗這些"小規(guī)模實驗室"得出的結論是否能在"工業(yè)生產"環(huán)境中站得住腳。
他們訓練了兩個7B參數(shù)的大型模型,每個模型都使用了1萬億個標記的訓練數(shù)據。第一個模型采用傳統(tǒng)的語言友好配方,第二個模型采用他們發(fā)現(xiàn)的平衡配方(mix6)。訓練過程在128個A100 GPU上進行,持續(xù)了約32天,這相當于一個中型AI公司幾個月的計算預算。
在語言能力測試中,平衡配方訓練的模型表現(xiàn)出了令人意外的優(yōu)勢。它的困惑度為7.49,明顯優(yōu)于語言友好模型的8.72,平均準確率也從64.7%提升到65.5%。這個結果推翻了許多人的預期,原本以為增加推理型內容會損害語言性能,但實際上在足夠大的訓練規(guī)模下,推理能力的提升反而促進了整體語言理解能力。
更重要的是,研究團隊觀察到了一個有趣的訓練動態(tài)。在訓練的前600B標記階段,語言友好模型的表現(xiàn)確實更好,但隨著訓練的深入,平衡配方模型開始顯現(xiàn)出優(yōu)勢,并最終超越了對照組。這種現(xiàn)象就像是馬拉松比賽中的"后程發(fā)力",暗示著推理型內容需要更長的時間來發(fā)揮其潛力,但一旦發(fā)揮出來,效果會更加顯著。
在視覺任務測試中,平衡配方模型的優(yōu)勢更加明顯。它在整體視覺任務上的平均得分為38.64%,比語言友好模型的37.32%高出1.32個百分點。更重要的是,這種提升是全面的,從基礎的通用視覺理解到復雜的知識密集型任務,從文字識別到視覺推理,各個方面都有改善。
特別值得注意的是,平衡配方模型在知識密集型視覺任務上的表現(xiàn)提升最為顯著,這直接驗證了研究團隊關于推理能力跨模態(tài)遷移的理論。這些任務通常需要模型將視覺信息與背景知識結合,進行多步推理,正是那些在代碼和數(shù)學文本上訓練出的邏輯思維能力發(fā)揮作用的場景。
為了進一步驗證結果的可靠性,研究團隊還進行了完整的多模態(tài)訓練流程。他們使用完整的Cambrian數(shù)據套件,包括250萬圖像-文本對用于視覺對齊,700萬多模態(tài)指令用于監(jiān)督微調。結果表明,預訓練階段獲得的視覺先驗能夠有效地遷移到下游的多模態(tài)應用中。
這個大規(guī)模實驗的成功不僅驗證了研究團隊的理論發(fā)現(xiàn),更重要的是證明了他們的方法具有實際應用價值。對于那些想要構建多模態(tài)AI系統(tǒng)的開發(fā)者來說,這提供了一個具體的、經過驗證的指導方案。
六、意外發(fā)現(xiàn):盲視覺指令調優(yōu)的雙刃劍效應
在研究過程中,團隊還意外發(fā)現(xiàn)了一個有趣現(xiàn)象,他們稱之為"盲視覺指令調優(yōu)"。這個發(fā)現(xiàn)就像是在烹飪實驗中意外調配出了一種新口味,雖然不是主要目標,但卻揭示了AI系統(tǒng)中一些令人深思的特性。
盲視覺指令調優(yōu)的過程是這樣的:首先讓模型在只有文本指令而沒有對應圖像的情況下進行學習,然后再進行正常的圖像-文本配對訓練。這種做法的初衷是讓模型先學會如何理解和回應視覺任務的指令格式,再學習如何處理實際的視覺內容。
實驗結果顯示,這種方法確實能夠提升模型的整體視覺性能。經過盲調優(yōu)的語言友好模型,其視覺準確率從37.32%提升到38.20%;平衡配方模型也從38.64%提升到39.56%。提升幅度雖然不大,但在AI研究中,每一個百分點的改進都是有意義的。
然而,這種提升背后隱藏著一個令人擔憂的機制。研究團隊發(fā)現(xiàn),模型之所以能在"盲"的狀態(tài)下回答視覺問題,主要是通過利用問題本身的線索和預訓練過程中積累的知識來進行"合理推測"。這種能力在某些情況下確實有用,特別是在知識密集型任務中,模型可以基于問題描述和背景知識給出正確答案。
但問題在于,這種"盲答"能力也意味著模型可能在實際應用中產生幻覺。即使沒有看到真實圖像,模型也會自信地給出答案,這在實際應用中可能導致嚴重的誤導。研究團隊測試了多個先進的AI系統(tǒng),包括GPT-5、Gemini 2.5 Pro、Claude Opus 4.1等,發(fā)現(xiàn)這種幻覺現(xiàn)象普遍存在。
為了展示這個問題的嚴重性,研究團隊進行了一個簡單的實驗。他們從自己的測試基準中隨機選擇了兩個問題,但故意不提供對應的圖像,然后詢問各種AI模型。結果發(fā)現(xiàn),大多數(shù)模型都會"編造"一個答案,仿佛它們真的"看到"了不存在的圖像。
這個發(fā)現(xiàn)引發(fā)了對當前AI評估方法的深刻反思。許多看似優(yōu)秀的多模態(tài)AI系統(tǒng),其性能可能部分來自于這種"智能猜測"而非真正的視覺理解。這提醒我們,在評估AI系統(tǒng)的視覺能力時,需要更加謹慎和全面的測試方法。
盡管存在這些問題,盲視覺指令調優(yōu)仍然為AI訓練提供了一些有價值的啟示。它表明,將復雜的學習任務分解為多個階段,先學習任務格式和指令理解,再學習具體的內容處理,可能是一種有效的訓練策略。關鍵是要在利用這種方法的優(yōu)勢的同時,采取措施防止其潛在的負面影響。
七、理論框架:柏拉圖表征假說的實證支持
研究團隊的發(fā)現(xiàn)為一個重要的理論框架——柏拉圖表征假說——提供了強有力的實證支持。這個假說認為,當AI模型在不同類型的數(shù)據和任務上達到足夠的規(guī)模時,它們的內在表征會趨向于一個共同的、底層的現(xiàn)實統(tǒng)計模型。
簡單來說,這個假說認為文本和圖像只是現(xiàn)實世界的不同"投影"或"影子",就像柏拉圖洞穴寓言中墻上的影子一樣。一個足夠強大的模型可以從任何單一的"投影"中學習到現(xiàn)實世界的底層結構。這解釋了為什么僅用文本訓練的模型能夠獲得視覺能力——它們實際上學習到了文本和圖像共同指向的那個更深層的現(xiàn)實模型。
研究團隊通過計算語言模型和視覺模型之間的表征相似性來驗證這個假說。他們使用了來自維基百科的圖像-文本對,分別提取語言模型和三個強大視覺模型(ViT-Large、DINOv2-Giant、CLIP-Huge)的特征表示,然后計算它們之間的相互最近鄰重疊度。
結果顯示,那些接受了更多結構化推理文本訓練的語言模型,與視覺模型的表征相似性確實更高。這種相似性的提升在推理文本比例達到75%時達到峰值,然后在100%時略有下降。這種非單調的關系很有趣:純粹的推理文本訓練可能讓模型學會了抽象結構,但缺乏足夠的語義詞匯來有效地映射到多樣化的視覺概念。
更重要的是,這種表征對齊不僅僅是統(tǒng)計上的巧合,它還具有功能性意義。那些在表征空間中更接近視覺模型的語言模型,在實際的視覺任務中也表現(xiàn)得更好。這種一致性強有力地支持了柏拉圖表征假說的核心觀點。
這個發(fā)現(xiàn)的哲學意義很深遠。它暗示著智能可能確實存在某種普遍的計算原理,這種原理不依賴于特定的輸入模態(tài),而是反映了現(xiàn)實世界本身的結構特征。無論是通過視覺、聽覺還是語言,智能系統(tǒng)最終都在嘗試構建對同一個客觀世界的理解。
從實用角度來看,這個理論框架為跨模態(tài)AI系統(tǒng)的設計提供了指導原則。與其將不同模態(tài)視為完全獨立的信息源,不如將它們看作是同一底層現(xiàn)實的不同表現(xiàn)形式。這種觀點可能引導我們開發(fā)出更高效、更通用的多模態(tài)AI架構。
八、未來展望:從偶然發(fā)現(xiàn)到刻意培養(yǎng)
這項研究最重要的貢獻在于,它將多模態(tài)AI能力的獲得從"偶然發(fā)現(xiàn)"轉變?yōu)?刻意培養(yǎng)"。過去,研究者們往往驚喜地發(fā)現(xiàn)某些模型"意外地"具備了跨模態(tài)能力,但對其原因知之甚少。現(xiàn)在,我們有了一套系統(tǒng)的理論框架和實踐指導,可以有目的地培養(yǎng)這些能力。
研究團隊的發(fā)現(xiàn)對AI開發(fā)實踐產生了直接影響。他們提供了具體的數(shù)據配方比例,揭示了不同類型訓練數(shù)據的作用機制,并且證明了這些發(fā)現(xiàn)在大規(guī)模訓練中的有效性。這意味著AI開發(fā)者現(xiàn)在可以更有針對性地設計訓練方案,用更少的資源獲得更好的多模態(tài)性能。
然而,這項研究也暴露了當前多模態(tài)AI評估中的一些問題。盲視覺指令調優(yōu)現(xiàn)象提醒我們,模型的表現(xiàn)可能并不完全來自真正的跨模態(tài)理解,而部分來自巧妙的"推測"和"猜測"。這要求我們開發(fā)更加嚴謹?shù)脑u估方法,確保測量的是真正的多模態(tài)智能而非聰明的捷徑。
從更廣闊的視角來看,這項研究為人工通用智能(AGI)的發(fā)展提供了重要洞察。如果推理能力確實是一種可以跨模態(tài)遷移的通用認知技能,那么培養(yǎng)強大的抽象推理能力可能是構建AGI的關鍵路徑之一。這種觀點可能會影響未來AI研究的方向,讓更多注意力轉向培養(yǎng)通用認知能力而非特定任務的優(yōu)化。
研究團隊也坦誠地指出了他們工作的局限性。他們的研究主要集中在適配器式的多模態(tài)架構上,對于其他類型的架構(如端到端聯(lián)合訓練或離散視覺標記化方法)的適用性還需要進一步驗證。此外,他們的研究主要關注靜態(tài)圖像理解,對于視頻等動態(tài)視覺內容的處理機制還有待探索。
安全性和公平性也是需要進一步關注的方面。如果語言訓練數(shù)據中包含偏見和有害內容,這些問題可能會通過視覺先驗傳播到多模態(tài)系統(tǒng)中。如何在培養(yǎng)強大跨模態(tài)能力的同時確保系統(tǒng)的安全性和公平性,是一個需要持續(xù)關注的重要問題。
盡管存在這些挑戰(zhàn),這項研究為多模態(tài)AI的發(fā)展開辟了新的道路。它不僅解答了一個重要的科學問題,更為實際應用提供了具體的指導。隨著更多研究者基于這些發(fā)現(xiàn)進行深入探索,我們可以期待多模態(tài)AI技術在不久的將來取得更大的突破。
Q&A
Q1:大語言模型的視覺先驗是如何形成的?
A:視覺先驗是由兩個獨立的組件構成的:推理先驗主要來自代碼、數(shù)學、學術論文等需要嚴密邏輯的文本,能夠培養(yǎng)跨模態(tài)的推理能力;感知先驗則來自多樣化的網絡文本,特別是包含視覺描述的內容。兩者分工不同但共同構成了模型的視覺能力基礎。
Q2:為什么代碼訓練能提升AI模型的視覺推理能力?
A:代碼本質上是高度結構化的邏輯表達方式,要求嚴格的邏輯規(guī)則和清晰的步驟分解。當AI模型學習代碼時,實際上在培養(yǎng)系統(tǒng)性思考能力,這種通用的邏輯思維能力可以無縫遷移到視覺推理任務中,讓模型能夠條理清晰地分析和解決視覺問題。
Q3:什么是最佳的數(shù)據配方比例來培養(yǎng)視覺能力?
A:研究發(fā)現(xiàn)最佳配方包含約60%的推理型文本(代碼、數(shù)學、學術內容)和15%的視覺描述文本。這個比例在meta團隊的大規(guī)模驗證中被證明既能保持強大的語言能力,又能顯著提升視覺表現(xiàn),是目前已知的最優(yōu)數(shù)據混合策略。





京公網安備 11011402013531號