亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

Meta團隊揭秘大模型"視覺天賦"之謎:文本訓練竟能培養(yǎng)看圖能力

IP屬地 中國·北京 科技行者 時間:2025-10-28 00:10:42


這項由meta超級智能實驗室和牛津大學的韓俊林、湯盛邦、范大衛(wèi)等研究團隊完成的重要研究,發(fā)表于2025年1月,論文編號為arXiv:2509.26625v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

近年來,一個令人困惑的現(xiàn)象開始引起科學家們的注意:那些只用文字訓練的大型語言模型,竟然在處理圖像任務時表現(xiàn)出了驚人的能力。這就好比一個從未見過畫筆的人,僅僅通過閱讀繪畫理論書籍,就能畫出精美的作品。這種看似不可能的現(xiàn)象背后究竟隱藏著什么秘密?

meta的研究團隊決定深入探究這個謎題。他們發(fā)現(xiàn),當我們給這些"純文字出身"的AI模型配上視覺編碼器,然后進行少量的多模態(tài)訓練后,它們就能在各種視覺任務中表現(xiàn)得相當出色。更令人驚訝的是,有些模型甚至在從未"見過"圖像的情況下,就能完成某些視覺推理任務。

為了徹底理解這種現(xiàn)象,研究團隊設計了一套系統(tǒng)性的實驗方案。他們像調配食譜一樣,精心調配不同類型的文本數(shù)據,訓練了超過100個不同規(guī)模的模型,消耗了50萬GPU小時的計算資源。這項研究的規(guī)模之大,就像是在建造一個巨大的實驗工廠,專門用來生產各種"口味"的AI模型。

研究團隊的核心發(fā)現(xiàn)可以用一個簡單的比喻來理解:大語言模型在純文本訓練過程中獲得的"視覺能力",實際上是兩種不同技能的組合,就像一個萬能工具箱里裝著兩套完全不同的工具。第一套是"感知工具",負責識別和理解圖像中的基本元素,比如物體、顏色、形狀等;第二套是"推理工具",負責分析這些元素之間的關系,進行邏輯思考和問題解決。

更有趣的是,這兩套工具的來源竟然大不相同。推理能力主要來自于代碼、數(shù)學、學術論文等需要嚴密邏輯的文本內容。當模型學習編程時,它實際上在培養(yǎng)著一種通用的邏輯思維能力,這種能力可以無縫地轉移到視覺推理任務中。而感知能力則更多地來自于各種各樣的網絡文本,特別是那些描述視覺世界的內容。

研究團隊還發(fā)現(xiàn)了一個重要的"配方比例"。他們發(fā)現(xiàn),要想培養(yǎng)出既能"看"又能"想"的AI模型,需要在訓練數(shù)據中加入大約60%的推理型文本(如代碼和數(shù)學內容)和15%的視覺描述文本。這個比例就像烹飪中的黃金配方,太多或太少都會影響最終的效果。

一、視覺先驗的雙重結構:感知與推理的奇妙分工

當研究團隊深入分析這些模型的內在機制時,他們發(fā)現(xiàn)了一個令人驚訝的事實:所謂的"視覺能力"其實并不是一個整體,而是由兩個相對獨立的系統(tǒng)組成的。這種發(fā)現(xiàn)就像是拆解一臺復雜的機器,發(fā)現(xiàn)里面其實裝著兩個不同用途的引擎。

為了驗證這個假設,研究團隊設計了一個精巧的實驗。他們訓練了105個不同的模型,然后分析這些模型在四種不同類型視覺任務上的表現(xiàn):通用視覺理解、知識密集型任務、文字識別類任務,以及視覺推理任務。通過統(tǒng)計分析,他們發(fā)現(xiàn)了一個有趣的模式。

通用視覺理解和文字識別任務之間存在顯著的相關性,這暗示著它們依賴于同一種底層能力——我們可以稱之為"感知引擎"。這個引擎就像人類的眼睛,負責接收和處理視覺信息的基礎工作。相比之下,知識密集型任務和視覺推理任務也表現(xiàn)出相關性,它們依賴的是另一種能力——"推理引擎",就像人類的大腦,負責分析、思考和解決問題。

更令人驚訝的是,這兩個引擎之間的相關性非常微弱,甚至有時呈現(xiàn)負相關。這意味著一個模型在基礎視覺識別方面的能力強,并不意味著它在視覺推理方面也一定出色,反之亦然。這種發(fā)現(xiàn)顛覆了許多人的直覺認知,原來"看得清"和"想得通"真的是兩碼事。

為了進一步驗證這個發(fā)現(xiàn),研究團隊進行了一個巧妙的對照實驗。他們嘗試用三種不同的視覺編碼器(可以理解為三種不同品牌的"眼睛")來配合經過不同比例推理文本訓練的語言模型。結果發(fā)現(xiàn),無論使用哪種"眼睛",那些經過更多推理文本訓練的模型在視覺推理任務上都表現(xiàn)得更好。這證明了推理能力確實是一種可以跨模態(tài)遷移的通用技能。

但感知能力的表現(xiàn)就大不相同了。不同的視覺編碼器配合同一個語言模型,在基礎視覺任務上的表現(xiàn)差異很大。這說明感知能力更依賴于視覺系統(tǒng)本身的特性,而不是語言模型的推理能力。

這個發(fā)現(xiàn)的實際意義非常重大。它告訴我們,如果想要提升AI模型的視覺推理能力,重點應該放在用更多高質量的推理文本來訓練語言模型;而如果想要改善基礎的視覺識別能力,則需要在視覺編碼器和視覺指令調優(yōu)數(shù)據上下功夫。

二、推理能力的跨模態(tài)魔法:從代碼思維到視覺智慧

研究團隊的一個重要發(fā)現(xiàn)是,通過代碼和數(shù)學文本訓練出的推理能力,竟然可以直接應用到視覺任務中,這種現(xiàn)象就像是學會了騎自行車的人可以很快學會騎摩托車一樣神奇。

為了驗證這個假設,研究團隊設計了一個特殊的實驗。他們讓模型不僅給出視覺問題的答案,還要解釋自己的推理過程。然后,他們用另一個AI系統(tǒng)來評估這些解釋的質量,包括邏輯嚴密性和推理深度兩個維度。

結果令人震驚。當模型接受的代碼訓練比例從0%增加到100%時,其視覺推理解釋的邏輯嚴密性從4.52%提升到9.52%,而推理深度更是從8.31個文本單位激增到53.25個單位,提升了六倍多。這種提升幅度就像是一個原本只會簡單算術的人,突然能夠解決復雜的數(shù)學證明題一樣驚人。

研究團隊還提供了一個生動的例子來說明這種差異。在一個需要判斷圖像中哪個邊界框更準確地圈出叉子的任務中,沒有接受代碼訓練的模型給出的回答非常簡單粗糙,基本上就是直接說答案。而接受了大量代碼訓練的模型則能夠詳細解釋什么是邊界框,如何判斷其準確性,并且逐步分析為什么某個答案是正確的。

這種現(xiàn)象的背后機制其實很容易理解。代碼本質上是一種高度結構化的邏輯表達方式,它要求編寫者必須遵循嚴格的邏輯規(guī)則,每一步都要清晰明確。當AI模型學習代碼時,它實際上在學習如何進行系統(tǒng)性思考,如何將復雜問題分解為可管理的小步驟,如何確保每個步驟之間的邏輯連貫性。

更令人驚訝的是,這種推理能力的遷移是如此徹底,以至于模型甚至繼承了代碼的表達風格。那些經過大量代碼訓練的模型,在解釋視覺問題時往往會生成更長、更詳細、更有條理的答案,就像程序員寫代碼注釋一樣。

數(shù)學訓練也產生了類似的效果,雖然程度稍弱一些。這證明了任何需要嚴密邏輯思維的文本內容都能夠培養(yǎng)這種跨模態(tài)的推理能力。研究團隊的發(fā)現(xiàn)與最近其他研究的結果高度一致,這些研究發(fā)現(xiàn)推理能力可以在不同語言之間遷移,而且語言強化學習訓練也能提升多模態(tài)推理能力。

這個發(fā)現(xiàn)的深遠意義在于,它為我們提供了一個全新的視角來理解智能的本質。推理能力似乎確實是一種獨立于具體模態(tài)的通用認知技能,無論是處理文字、代碼、數(shù)學公式還是圖像,其底層的邏輯思維過程是相通的。

三、數(shù)據配方的黃金比例:60%推理加15%視覺的完美組合

在探索了視覺能力的內在結構之后,研究團隊開始尋找培養(yǎng)這種能力的最佳"營養(yǎng)配方"。他們的目標是找到一個既能保持強大語言能力,又能顯著提升視覺表現(xiàn)的數(shù)據混合比例。

研究團隊首先進行了一個大規(guī)模的網格搜索實驗。他們構建了24種不同的數(shù)據配方,推理型文本的比例從50%到85%不等,視覺描述文本的比例從5%到30%變化。每種配方都被用來訓練一個3B參數(shù)的模型,總訓練數(shù)據量為30B個標記。這就像是一個巨大的烘焙實驗室,每個烤箱里都在制作不同配方的蛋糕。

實驗結果顯示,最佳的視覺導向配方包含約60%的推理型內容和15%的視覺描述內容。這個比例不是通過理論推導得出的,而是通過大量實驗驗證的經驗發(fā)現(xiàn)。有趣的是,這個結果表明,培養(yǎng)強大的視覺能力并不需要大量的視覺描述文本,關鍵在于建立一個強大的推理基礎,然后用少量但精確的視覺知識來"激活"這種能力。

接下來,研究團隊將注意力轉向了更實用的場景。他們選擇了六個主要的數(shù)據源:網絡爬蟲文本、百科全書、學術論文、文學作品、數(shù)學內容和代碼。然后,他們設計了一個從"語言友好"到"視覺友好"的漸進式實驗。

語言友好的基線配方包含50%的網絡文本、2.5%的百科內容、2.5%的學術論文、20%的文學作品、5%的數(shù)學內容和20%的代碼。這個配方在語言任務上表現(xiàn)最佳,困惑度達到13.46,文本準確率為53.0%。

然后,研究團隊設計了十個中間配方(mix0到mix10),逐步增加推理型內容的比例,同時減少一般性文本的比例。每個配方都用50B標記進行訓練,以確保結果的穩(wěn)定性。

最終的實驗結果清晰地展示了一個權衡關系:隨著推理型內容比例的增加,視覺能力逐步提升,而語言能力略有下降。在這個權衡中,mix6配方脫穎而出,成為最平衡的選擇。這個配方包含40%的網絡文本、8%的百科內容、5%的學術論文、2%的文學作品、10%的數(shù)學內容和35%的代碼。

mix6配方實現(xiàn)了33.3%的視覺準確率,同時將語言性能的下降控制在最小范圍內。更重要的是,這種性能提升是全面的,不僅在視覺推理任務上表現(xiàn)出色,在基礎視覺理解任務上也有顯著改善。

這個發(fā)現(xiàn)的實際價值在于,它為AI開發(fā)者提供了一個具體的指導方案。與其盲目地增加訓練數(shù)據的規(guī)模,不如精心設計數(shù)據的組成比例,用較少的資源獲得更好的效果。

四、感知能力的復雜起源:多樣性勝過專一性

與推理能力的清晰來源形成鮮明對比,感知能力的培養(yǎng)要復雜得多。研究團隊發(fā)現(xiàn),要想讓AI模型具備良好的基礎視覺識別能力,關鍵不在于某種特定類型的文本,而在于文本的多樣性和豐富性。

為了深入研究這個問題,研究團隊創(chuàng)建了一個新的評估工具——多層次存在基準測試(MLE-Bench)。這個基準測試專門用來評估模型識別不同大小物體的能力。測試內容包括1861張圖像,根據目標物體占據圖像像素的比例,分為小物體(0-30%)、中等物體(30-60%)和大物體(60-100%)三個類別。

研究團隊用這個基準測試評估了16個分別在單一數(shù)據源上訓練的模型。結果顯示,在網絡爬蟲數(shù)據上訓練的模型在整體表現(xiàn)上最佳,特別是在識別小到中等大小的物體方面表現(xiàn)突出。但對于占據畫面主要部分的大物體,這種優(yōu)勢就沒那么明顯了。

這個發(fā)現(xiàn)揭示了感知能力的一個重要特征:它具有層次性。識別小物體需要模型對細節(jié)有敏銳的感知能力,而識別大物體則相對容易。網絡爬蟲文本之所以在培養(yǎng)這種能力方面效果最好,是因為這類文本包含了對各種視覺概念的豐富描述,從常見的日常物品到罕見的專業(yè)術語,從宏觀場景到微觀細節(jié)。

研究團隊還進行了一個有趣的對比實驗。他們分析了視覺指令調優(yōu)階段不同類型數(shù)據的作用。他們將指令調優(yōu)數(shù)據分為感知導向和推理導向兩類,然后逐步移除這些數(shù)據,觀察模型性能的變化。

結果發(fā)現(xiàn),移除感知導向的指令數(shù)據對基礎視覺任務(如文字識別和通用視覺理解)的影響最大,性能下降幅度達到5-10%。而移除推理導向的指令數(shù)據主要影響高級視覺推理任務,對基礎視覺任務的影響較小。

這個發(fā)現(xiàn)進一步證實了感知和推理能力的獨立性。基礎的視覺識別能力更依賴于大量多樣化的視覺描述和后期的視覺指令調優(yōu),而高級的視覺推理能力主要來源于語言模型在預訓練階段獲得的邏輯思維能力。

更有趣的是,研究團隊發(fā)現(xiàn)了一個看似矛盾的現(xiàn)象:僅用25%視覺描述文本訓練的模型,在某些復雜視覺理解任務上的表現(xiàn),竟然比用100%視覺文本訓練的模型更好。這說明,簡單地增加視覺描述文本的比例并不能自動提升深層的視覺理解能力,有時候過多的描述性內容反而可能干擾模型學習更抽象的視覺概念。

五、實踐驗證:1萬億標記的大規(guī)模實驗

理論發(fā)現(xiàn)需要實踐驗證。研究團隊決定將他們的發(fā)現(xiàn)應用到真正的大規(guī)模訓練中,來檢驗這些"小規(guī)模實驗室"得出的結論是否能在"工業(yè)生產"環(huán)境中站得住腳。

他們訓練了兩個7B參數(shù)的大型模型,每個模型都使用了1萬億個標記的訓練數(shù)據。第一個模型采用傳統(tǒng)的語言友好配方,第二個模型采用他們發(fā)現(xiàn)的平衡配方(mix6)。訓練過程在128個A100 GPU上進行,持續(xù)了約32天,這相當于一個中型AI公司幾個月的計算預算。

在語言能力測試中,平衡配方訓練的模型表現(xiàn)出了令人意外的優(yōu)勢。它的困惑度為7.49,明顯優(yōu)于語言友好模型的8.72,平均準確率也從64.7%提升到65.5%。這個結果推翻了許多人的預期,原本以為增加推理型內容會損害語言性能,但實際上在足夠大的訓練規(guī)模下,推理能力的提升反而促進了整體語言理解能力。

更重要的是,研究團隊觀察到了一個有趣的訓練動態(tài)。在訓練的前600B標記階段,語言友好模型的表現(xiàn)確實更好,但隨著訓練的深入,平衡配方模型開始顯現(xiàn)出優(yōu)勢,并最終超越了對照組。這種現(xiàn)象就像是馬拉松比賽中的"后程發(fā)力",暗示著推理型內容需要更長的時間來發(fā)揮其潛力,但一旦發(fā)揮出來,效果會更加顯著。

在視覺任務測試中,平衡配方模型的優(yōu)勢更加明顯。它在整體視覺任務上的平均得分為38.64%,比語言友好模型的37.32%高出1.32個百分點。更重要的是,這種提升是全面的,從基礎的通用視覺理解到復雜的知識密集型任務,從文字識別到視覺推理,各個方面都有改善。

特別值得注意的是,平衡配方模型在知識密集型視覺任務上的表現(xiàn)提升最為顯著,這直接驗證了研究團隊關于推理能力跨模態(tài)遷移的理論。這些任務通常需要模型將視覺信息與背景知識結合,進行多步推理,正是那些在代碼和數(shù)學文本上訓練出的邏輯思維能力發(fā)揮作用的場景。

為了進一步驗證結果的可靠性,研究團隊還進行了完整的多模態(tài)訓練流程。他們使用完整的Cambrian數(shù)據套件,包括250萬圖像-文本對用于視覺對齊,700萬多模態(tài)指令用于監(jiān)督微調。結果表明,預訓練階段獲得的視覺先驗能夠有效地遷移到下游的多模態(tài)應用中。

這個大規(guī)模實驗的成功不僅驗證了研究團隊的理論發(fā)現(xiàn),更重要的是證明了他們的方法具有實際應用價值。對于那些想要構建多模態(tài)AI系統(tǒng)的開發(fā)者來說,這提供了一個具體的、經過驗證的指導方案。

六、意外發(fā)現(xiàn):盲視覺指令調優(yōu)的雙刃劍效應

在研究過程中,團隊還意外發(fā)現(xiàn)了一個有趣現(xiàn)象,他們稱之為"盲視覺指令調優(yōu)"。這個發(fā)現(xiàn)就像是在烹飪實驗中意外調配出了一種新口味,雖然不是主要目標,但卻揭示了AI系統(tǒng)中一些令人深思的特性。

盲視覺指令調優(yōu)的過程是這樣的:首先讓模型在只有文本指令而沒有對應圖像的情況下進行學習,然后再進行正常的圖像-文本配對訓練。這種做法的初衷是讓模型先學會如何理解和回應視覺任務的指令格式,再學習如何處理實際的視覺內容。

實驗結果顯示,這種方法確實能夠提升模型的整體視覺性能。經過盲調優(yōu)的語言友好模型,其視覺準確率從37.32%提升到38.20%;平衡配方模型也從38.64%提升到39.56%。提升幅度雖然不大,但在AI研究中,每一個百分點的改進都是有意義的。

然而,這種提升背后隱藏著一個令人擔憂的機制。研究團隊發(fā)現(xiàn),模型之所以能在"盲"的狀態(tài)下回答視覺問題,主要是通過利用問題本身的線索和預訓練過程中積累的知識來進行"合理推測"。這種能力在某些情況下確實有用,特別是在知識密集型任務中,模型可以基于問題描述和背景知識給出正確答案。

但問題在于,這種"盲答"能力也意味著模型可能在實際應用中產生幻覺。即使沒有看到真實圖像,模型也會自信地給出答案,這在實際應用中可能導致嚴重的誤導。研究團隊測試了多個先進的AI系統(tǒng),包括GPT-5、Gemini 2.5 Pro、Claude Opus 4.1等,發(fā)現(xiàn)這種幻覺現(xiàn)象普遍存在。

為了展示這個問題的嚴重性,研究團隊進行了一個簡單的實驗。他們從自己的測試基準中隨機選擇了兩個問題,但故意不提供對應的圖像,然后詢問各種AI模型。結果發(fā)現(xiàn),大多數(shù)模型都會"編造"一個答案,仿佛它們真的"看到"了不存在的圖像。

這個發(fā)現(xiàn)引發(fā)了對當前AI評估方法的深刻反思。許多看似優(yōu)秀的多模態(tài)AI系統(tǒng),其性能可能部分來自于這種"智能猜測"而非真正的視覺理解。這提醒我們,在評估AI系統(tǒng)的視覺能力時,需要更加謹慎和全面的測試方法。

盡管存在這些問題,盲視覺指令調優(yōu)仍然為AI訓練提供了一些有價值的啟示。它表明,將復雜的學習任務分解為多個階段,先學習任務格式和指令理解,再學習具體的內容處理,可能是一種有效的訓練策略。關鍵是要在利用這種方法的優(yōu)勢的同時,采取措施防止其潛在的負面影響。

七、理論框架:柏拉圖表征假說的實證支持

研究團隊的發(fā)現(xiàn)為一個重要的理論框架——柏拉圖表征假說——提供了強有力的實證支持。這個假說認為,當AI模型在不同類型的數(shù)據和任務上達到足夠的規(guī)模時,它們的內在表征會趨向于一個共同的、底層的現(xiàn)實統(tǒng)計模型。

簡單來說,這個假說認為文本和圖像只是現(xiàn)實世界的不同"投影"或"影子",就像柏拉圖洞穴寓言中墻上的影子一樣。一個足夠強大的模型可以從任何單一的"投影"中學習到現(xiàn)實世界的底層結構。這解釋了為什么僅用文本訓練的模型能夠獲得視覺能力——它們實際上學習到了文本和圖像共同指向的那個更深層的現(xiàn)實模型。

研究團隊通過計算語言模型和視覺模型之間的表征相似性來驗證這個假說。他們使用了來自維基百科的圖像-文本對,分別提取語言模型和三個強大視覺模型(ViT-Large、DINOv2-Giant、CLIP-Huge)的特征表示,然后計算它們之間的相互最近鄰重疊度。

結果顯示,那些接受了更多結構化推理文本訓練的語言模型,與視覺模型的表征相似性確實更高。這種相似性的提升在推理文本比例達到75%時達到峰值,然后在100%時略有下降。這種非單調的關系很有趣:純粹的推理文本訓練可能讓模型學會了抽象結構,但缺乏足夠的語義詞匯來有效地映射到多樣化的視覺概念。

更重要的是,這種表征對齊不僅僅是統(tǒng)計上的巧合,它還具有功能性意義。那些在表征空間中更接近視覺模型的語言模型,在實際的視覺任務中也表現(xiàn)得更好。這種一致性強有力地支持了柏拉圖表征假說的核心觀點。

這個發(fā)現(xiàn)的哲學意義很深遠。它暗示著智能可能確實存在某種普遍的計算原理,這種原理不依賴于特定的輸入模態(tài),而是反映了現(xiàn)實世界本身的結構特征。無論是通過視覺、聽覺還是語言,智能系統(tǒng)最終都在嘗試構建對同一個客觀世界的理解。

從實用角度來看,這個理論框架為跨模態(tài)AI系統(tǒng)的設計提供了指導原則。與其將不同模態(tài)視為完全獨立的信息源,不如將它們看作是同一底層現(xiàn)實的不同表現(xiàn)形式。這種觀點可能引導我們開發(fā)出更高效、更通用的多模態(tài)AI架構。

八、未來展望:從偶然發(fā)現(xiàn)到刻意培養(yǎng)

這項研究最重要的貢獻在于,它將多模態(tài)AI能力的獲得從"偶然發(fā)現(xiàn)"轉變?yōu)?刻意培養(yǎng)"。過去,研究者們往往驚喜地發(fā)現(xiàn)某些模型"意外地"具備了跨模態(tài)能力,但對其原因知之甚少。現(xiàn)在,我們有了一套系統(tǒng)的理論框架和實踐指導,可以有目的地培養(yǎng)這些能力。

研究團隊的發(fā)現(xiàn)對AI開發(fā)實踐產生了直接影響。他們提供了具體的數(shù)據配方比例,揭示了不同類型訓練數(shù)據的作用機制,并且證明了這些發(fā)現(xiàn)在大規(guī)模訓練中的有效性。這意味著AI開發(fā)者現(xiàn)在可以更有針對性地設計訓練方案,用更少的資源獲得更好的多模態(tài)性能。

然而,這項研究也暴露了當前多模態(tài)AI評估中的一些問題。盲視覺指令調優(yōu)現(xiàn)象提醒我們,模型的表現(xiàn)可能并不完全來自真正的跨模態(tài)理解,而部分來自巧妙的"推測"和"猜測"。這要求我們開發(fā)更加嚴謹?shù)脑u估方法,確保測量的是真正的多模態(tài)智能而非聰明的捷徑。

從更廣闊的視角來看,這項研究為人工通用智能(AGI)的發(fā)展提供了重要洞察。如果推理能力確實是一種可以跨模態(tài)遷移的通用認知技能,那么培養(yǎng)強大的抽象推理能力可能是構建AGI的關鍵路徑之一。這種觀點可能會影響未來AI研究的方向,讓更多注意力轉向培養(yǎng)通用認知能力而非特定任務的優(yōu)化。

研究團隊也坦誠地指出了他們工作的局限性。他們的研究主要集中在適配器式的多模態(tài)架構上,對于其他類型的架構(如端到端聯(lián)合訓練或離散視覺標記化方法)的適用性還需要進一步驗證。此外,他們的研究主要關注靜態(tài)圖像理解,對于視頻等動態(tài)視覺內容的處理機制還有待探索。

安全性和公平性也是需要進一步關注的方面。如果語言訓練數(shù)據中包含偏見和有害內容,這些問題可能會通過視覺先驗傳播到多模態(tài)系統(tǒng)中。如何在培養(yǎng)強大跨模態(tài)能力的同時確保系統(tǒng)的安全性和公平性,是一個需要持續(xù)關注的重要問題。

盡管存在這些挑戰(zhàn),這項研究為多模態(tài)AI的發(fā)展開辟了新的道路。它不僅解答了一個重要的科學問題,更為實際應用提供了具體的指導。隨著更多研究者基于這些發(fā)現(xiàn)進行深入探索,我們可以期待多模態(tài)AI技術在不久的將來取得更大的突破。

Q&A

Q1:大語言模型的視覺先驗是如何形成的?

A:視覺先驗是由兩個獨立的組件構成的:推理先驗主要來自代碼、數(shù)學、學術論文等需要嚴密邏輯的文本,能夠培養(yǎng)跨模態(tài)的推理能力;感知先驗則來自多樣化的網絡文本,特別是包含視覺描述的內容。兩者分工不同但共同構成了模型的視覺能力基礎。

Q2:為什么代碼訓練能提升AI模型的視覺推理能力?

A:代碼本質上是高度結構化的邏輯表達方式,要求嚴格的邏輯規(guī)則和清晰的步驟分解。當AI模型學習代碼時,實際上在培養(yǎng)系統(tǒng)性思考能力,這種通用的邏輯思維能力可以無縫遷移到視覺推理任務中,讓模型能夠條理清晰地分析和解決視覺問題。

Q3:什么是最佳的數(shù)據配方比例來培養(yǎng)視覺能力?

A:研究發(fā)現(xiàn)最佳配方包含約60%的推理型文本(代碼、數(shù)學、學術內容)和15%的視覺描述文本。這個比例在meta團隊的大規(guī)模驗證中被證明既能保持強大的語言能力,又能顯著提升視覺表現(xiàn),是目前已知的最優(yōu)數(shù)據混合策略。

免責聲明:本網信息來自于互聯(lián)網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯(lián)系我們,本站將會在24小時內處理完畢。

久草精品电影| 欧美特黄一区二区三区| 日韩精品久久久久久久酒店| 国产精品久久久久毛片软件| 欧美精品激情在线观看| 捷克做爰xxxⅹ性视频| 麻豆成人在线观看| 中文字幕日韩专区| 不用播放器的免费av| 久久国产成人午夜av影院| 亚洲色图13p| 国产a视频免费观看| 日韩av电影一区| 亚洲欧洲美洲在线综合| 91热这里只有精品| 国产乱人伦精品一区二区在线观看| 最近2019免费中文字幕视频三| 国产一区二区在线免费播放| 国产美女精品在线| 91po在线观看91精品国产性色| 女同性恋一区二区三区| 久久一日本道色综合| 国产精品美女999| 日韩视频在线观看免费视频| 亚洲人成精品久久久久久| 97神马电影| 久久精品国产亚洲av无码娇色| 午夜激情一区二区| 亚洲资源在线网| www.日韩在线观看| 免费视频网站www| 刘亦菲毛片一区二区三区| 亚洲另类欧美自拍| 亚洲美女性囗交| heyzo一本久久综合| 欧美亚洲成人xxx| 可以免费看av的网址| 五月婷婷另类国产| 三年中文高清在线观看第6集| 丰满熟妇乱又伦| 色偷偷亚洲男人天堂| 人妻激情偷乱频一区二区三区| 国产亚洲综合性久久久影院| 亚洲自拍偷拍第一页| 日韩国产成人在线| 亚洲精品永久免费| 国产精品入口麻豆| 亚洲午夜电影在线观看| 一区二区三区一级片| 青椒成人免费视频| 国产91精品久久久久久| 日韩激情在线播放| 亚洲国产精品久久久| 97精品人人妻人人| 午夜精品福利一区二区蜜股av| 99亚洲国产精品| 国产一区在线视频| 成人中文字幕在线观看| 亚洲天堂免费av| 久久精品视频在线观看| 日本伦理一区二区三区| 欧美精品日日鲁夜夜添| 国产aⅴ爽av久久久久| 国产精品网站在线| 久久久成人精品一区二区三区| 老司机免费视频一区二区三区| 国产精品久久久久久超碰| 一区二区三区视频免费看| 亚洲精品成a人在线观看| 久久无码人妻一区二区三区| 亚洲一区二区成人在线观看| 欧美一级片免费播放| 99久久99久久综合| 日本一区二区三区四区高清视频 | 在线播放国产一区| 日韩免费在线播放| 欧美激情一区二区三区p站| 亚洲福利一区二区三区| www国产黄色| 国产精品九色蝌蚪自拍| 国产91视频一区| 久久免费国产精品| 三年中文高清在线观看第6集| 日韩福利视频导航| 国产精品成人午夜| 在线无限看免费粉色视频| 成人h动漫精品一区二区| 免费日韩av电影| 国产尤物一区二区在线| 国产美女精品在线观看| 精品在线视频一区| 欧美二区三区| av一区二区久久| youjizz.com亚洲| 91婷婷韩国欧美一区二区| 日本三日本三级少妇三级66| 久久久久久电影| 日本人体一区二区| 一片黄亚洲嫩模| www.99在线| 日韩欧美中文字幕在线观看| 无码国产精品久久一区免费| 欧美妇女性影城| a天堂中文字幕| 亚洲欧美综合区自拍另类| 久久久久无码精品国产| 欧美激情成人在线视频| 99久久免费国产精精品| 成人午夜高潮视频| 国产激情91久久精品导航| 9l视频自拍9l视频自拍| 亚洲精品亚洲人成人网| 两性午夜免费视频| 日韩一区二区在线观看视频播放| 一级黄色毛毛片| 中文字幕精品视频| 国产精品久久欧美久久一区| 国产日韩精品一区二区| 国产一区二区三区精品视频| 午夜探花在线观看| 亚洲一区二区成人在线观看| 欧洲一级黄色片| 一区二区三区 在线观看视| 亚洲天堂手机在线| 成人在线观看91| 国产日韩精品一区二区三区在线| 欧美牲交a欧美牲交aⅴ免费真| 91成人国产精品| 免费中文字幕日韩| 91国产在线精品| 精品一区免费av| 一本久道高清无码视频| 91黄视频在线观看| 日韩欧美视频免费观看| 久久久久久久久爱| 久久成人精品无人区| 国产美女在线精品| 一区视频二区视频| 五月综合激情婷婷六月色窝| 你懂得视频在线观看| 欧美—级a级欧美特级ar全黄| 五月婷婷激情在线| 国产a级片免费看| 在线视频欧美精品| 久久中文字幕在线观看| 成人精品久久av网站| 久久色.com| 亚洲黄色小说在线观看| 色综合影院在线| 三级一区在线视频先锋| 精品在线视频免费| 亚洲天堂第二页| 国产一区二区香蕉| 国产99一区视频免费| 欧美亚洲另类色图| 日韩欧美国产一区二区在线播放| 国产真人无遮挡作爱免费视频| av蓝导航精品导航| 伊人开心综合网| 欧美性三三影院| 国产亚洲欧美一区二区| 狠狠干狠狠操视频| 亚洲久久久久久久久久| 亚洲精品国产片| 欧美大片免费播放| 日韩一区二区三区在线视频| 在线观看黄色网| 伊人久久99| 老司机精品视频网站| 久久影视中文粉嫩av| 国产中文字字幕乱码无限| 欧美熟妇另类久久久久久不卡 | 亚洲日本在线天堂| 毛片aaaaaa| 国产精品久久久久久久久久久久久 | 亚洲一卡二卡三卡四卡无卡网站在线看| 亚洲国产精品久久不卡毛片 | 黄色www网站| 欧美视频日韩视频| 顶级嫩模精品视频在线看| 亚洲在线观看免费| 久久精品丝袜高跟鞋| 色综合中文综合网| 国产98在线|日韩| 久久精品国产精品亚洲红杏| 一级做a免费视频| 国产熟人av一二三区| 中文字幕+乱码+中文字幕一区| 色欲AV无码精品一区二区久久| 国产精品爽黄69天堂a| 最新国产の精品合集bt伙计| 国产波霸爆乳一区二区| 久久综合毛片| 欧美videos大乳护士334| 色香蕉在线视频| 偷窥国产亚洲免费视频| 国产区在线观看视频| 亚洲最大免费| 日韩精品在线观看一区| 国产v综合v亚洲欧| 免费网站在线高清观看| 国产一区二区三区av在线| 91精品国产综合久久国产大片| 日本韩国免费观看| 日本wwww色| 国产欧美日韩中文字幕| 欧美性xxxxx极品少妇| 少妇精品视频一区二区| 亚洲免费影视第一页| 影音先锋国产资源| 欧美在线一区视频| 国模精品视频一区二区三区| 亚洲激情中文1区| 一级做a爱片性色毛片| 国产精品入口免费软件| 国产91在线播放精品91| 五月婷婷综合网| 欧美一区二区三区激情| 成人在线视频免费播放| 欧美不卡视频一区发布| 99久久久无码国产精品性 | 国产精品日日摸夜夜摸av| 精品一区二区三区人妻| 中文字幕成人一区| 欧美精品情趣视频| 亚洲国产综合91精品麻豆| 亚洲精品字幕在线| 男人女人拔萝卜视频| 国产视频在线观看一区| 日韩av中文字幕在线| 亚洲av成人片无码| 亚洲精品久久久久久久久久久久| 国产一区二区毛片| 成人涩涩小片视频日本| 久久av综合网| 国产成人精彩在线视频九色| 欧美影院午夜播放| 国产一区二区三区美女| 国产小视频在线看| 欧美日韩在线中文| 成人精品一区二区三区电影免费| 欧美理论电影在线| fc2成人免费人成在线观看播放| 国产原创精品| 亚洲欧美激情插| 黑人精品一区二区三区| 人妻大战黑人白浆狂泄| 一级黄色录像免费看| 91精品国产91久久久久久吃药| 91黄色免费版| 国产成人综合在线| 波多野结衣高清视频| www.欧美激情.com| 久久资源亚洲| 欧美成年人网站| 免费在线观看国产精品| 91九色视频导航| 亚洲国产天堂久久综合| 亚洲三级电影网站| 三级影片在线观看欧美日韩一区二区| 国产激情无码一区二区三区| 国产又大又黄又粗的视频| 国产高清精品一区二区三区| 在线中文字幕日韩| 精品人伦一区二区三区蜜桃网站| 韩国三级电影一区二区| 69xxxx国产| 波多野结衣影院| 女人被男人躁得好爽免费视频 | aa视频在线播放| 国产精品va在线| 亚洲成av人影院在线观看| 国产精品乱码一区二三区小蝌蚪| 亚洲精品一级片| 久久久久黄色片| 亚洲AV成人精品| 一区二区三区av| 96精品久久久久中文字幕| 日韩中文字幕国产| 国产乱码字幕精品高清av| 亚洲欧洲久久| 国产精品成人免费电影| 亚洲欧美自拍一区| 色噜噜狠狠色综合中国| 久久久精品影视| 三级久久三级久久| 青青艹在线观看| 极品魔鬼身材女神啪啪精品| 欧美日韩久久婷婷| 好色先生视频污| 国产在线视频欧美一区二区三区| 色综合久久久久综合体桃花网| 亚洲色偷偷色噜噜狠狠99网| 青青草视频在线视频| 国内精品视频免费| 欧美资源在线观看| 亚洲天堂av图片| 欧美美女喷水视频| 精品久久久久久国产91| 国产精品色哟哟网站| 国产老妇另类xxxxx| 欧美一区,二区| 最近中文字幕免费观看| 久久婷婷一区二区| 日韩丰满少妇无码内射| 奇米777在线视频| 欧美高清视频www夜色资源网| 久久国产成人午夜av影院| 国产精品久久免费| 一二三区免费视频| 欧美日韩在线视频免费播放| 亚洲中文字幕一区| 亚洲网中文字幕| 超碰影院在线观看| 五月丁香综合缴情六月小说| 欧美日韩日本网| 国产91视觉| 96精品久久久久中文字幕| 欧美一区亚洲一区| 久久久久久国产免费| 久久久精品久久久久| 免费av一级片| 香蕉视频污视频| 高潮一区二区三区| 国产一级不卡毛片| 一女被多男玩喷潮视频| 日本高清xxxx| 一区二区av| 亚洲激情啪啪| 手机在线观看国产精品| 国产亚洲情侣一区二区无| 96国产粉嫩美女| 91精品视频观看| 91色视频在线观看| 亚洲精品www久久久| 99riav国产| 无码人妻精品一区二区三区9厂| 国产精品suv一区二区| 欧美又粗又大又长| 久久久全国免费视频| 草视频在线观看| 2021亚洲天堂| 国产一级视频在线| 日韩黄色在线视频| 亚洲不卡视频在线观看| 亚洲熟妇无码乱子av电影| 一级片视频在线观看| 少妇高潮av久久久久久| 久久精品无码av| 久草热在线观看| 国产欧美综合视频| 久久久久久久久免费看无码| 日韩av电影免费观看高清| 欧美在线亚洲在线| 国产成一区二区| 国产噜噜噜噜噜久久久久久久久| 成人精品在线视频| 国产精品免费在线| 精品一区国产| 亚洲一区二区高清视频| 大地资源网在线观看免费官网| 久久久久久久香蕉| 99精品视频播放| 亚洲午夜精品在线观看| 亚洲av成人片色在线观看高潮| 亚洲一区二区三区日韩| 麻豆视频在线观看| 精品久久久久久久久久久久久久久久| 亚洲国产精品久久久久久女王| 7m精品福利视频导航| 国产成人在线一区二区| 成人伊人精品色xxxx视频| 99精品99久久久久久宅男| 欧美xxxx黑人又粗又长精品| 一区二区三区四区五区精品| 欧美精品久久久久久久免费| 中文字幕国产免费| 五级黄高潮片90分钟视频| www青青草原| 伊人成人在线观看| 视频在线观看一区二区三区| 成人午夜激情视频| 国产精品午夜电影| 色婷婷久久久综合中文字幕| 精品少妇一区二区三区日产乱码| 久久先锋资源| 好男人www在线视频| 国产中文一区二区三区| 国产亚洲欧美色| 精品电影在线观看| 精品国产不卡一区二区三区| 久久在线视频在线| 91系列在线播放| 在线播放豆国产99亚洲| 无码人妻精品一区二区三区66| 国产chinese中国hdxxxx| 18精品爽视频在线观看| 午夜久久久久久久久久| 国产乱对白刺激视频不卡| 亚洲人成网站在线| 日韩欧美不卡在线观看视频| 九九久久精品一区| 国产在线精品一区二区三区| 国模gogo一区二区大胆私拍| 欧美午夜视频在线观看| 亚洲激情视频网站| 97视频在线观看视频免费视频 | 国产小视频你懂的| 国产精品视频一二区| 国产宾馆实践打屁股91|