![]()
這項由約翰霍普金斯大學張嘉瀚團隊牽頭,聯合北京大學、普林斯頓大學、MIT、哈佛大學等多所知名院校研究人員的突破性研究,于2025年10月發表在計算機視覺領域頂級會議上。有興趣深入了解的讀者可以通過論文編號arXiv:2510.18135查詢完整論文。這項研究首次提出了一個完全改變AI世界模型評估方式的開放平臺World-in-World,徹底顛覆了傳統只看視覺效果的評估標準。 當前的AI世界模型就像電影特效一樣,能夠生成逼真到令人驚嘆的虛擬世界視頻。然而問題在于,這些模型雖然看起來很炫酷,但它們在實際應用中的表現如何呢?就好比一個演員雖然長得很帥,但演技是否真的過關,只有讓他真正上臺表演才能知道。研究團隊發現,現有的評估方法就像只看演員的宣傳照片就決定是否讓他主演電影一樣不靠譜——它們只關注生成視頻的視覺質量,卻忽略了這些AI模型在真實任務中的實際表現能力。 研究團隊面臨的核心挑戰是:如何真正測試這些AI世界模型在實際應用中的效果?傳統的評估方法就像在實驗室里測試汽車性能,只看發動機聲音是否悅耳、外觀是否漂亮,卻不讓汽車真正上路行駛。這種評估方式完全無法反映汽車在真實道路條件下的駕駛表現。同樣,現有的世界模型評估也存在這個問題——它們被設計用來幫助AI智能體在虛擬環境中做決策,但評估時卻只看生成的畫面是否美觀,而不測試它們是否真的能幫助AI完成具體任務。 為了解決這個根本性問題,研究團隊創建了World-in-World這個革命性平臺。這個平臺的工作原理就像一個全方位的駕駛考試中心,不僅要求AI展示它能生成多么逼真的虛擬世界,更重要的是要求它在這些虛擬世界中真正完成各種復雜任務。這種評估方式就像讓演員不僅要長得好看,還要真正能演戲、能感動觀眾一樣。 一、突破傳統束縛:從"看起來不錯"到"真正有用" 傳統的AI世界模型評估就像一場純粹的選美比賽,評委們只關心參賽者是否足夠美麗,卻不在乎她們是否具備實際的才能和智慧。這種評估方式在AI領域造成了一個嚴重的問題:開發者們把所有精力都投入到讓AI生成更加逼真、更加華麗的視頻上,卻忽略了這些AI是否真的能幫助解決實際問題。 World-in-World平臺徹底改變了這種評估思路。它就像一個全新的競賽規則,不再單純看AI生成的視頻有多漂亮,而是要求AI真正參與到復雜的互動任務中。這種評估方式就像從靜態的攝影比賽轉向動態的實戰演練,AI必須在真實的環境交互中證明自己的價值。 研究團隊設計的評估框架包含了一個巧妙的閉環系統。在這個系統中,AI不僅要生成虛擬世界,還要在這個世界中做出決策、執行行動、觀察結果,然后基于新的觀察繼續做出下一步決策。這個過程就像一個人在真實世界中生活一樣——你不能只是想象接下來會發生什么,你必須真正行動,然后根據行動的結果調整你的下一步計劃。 這種閉環評估的創新之處在于,它能夠揭示AI世界模型的真實能力。一個AI可能能夠生成非常逼真的廚房場景,但當它需要指導一個機器人在這個廚房里實際做飯時,它是否還能保持同樣的表現呢?World-in-World就是要回答這樣的問題。 二、四大實戰演練場:全方位測試AI的真實本領 為了全面測試AI世界模型的實際能力,研究團隊精心設計了四個不同類型的任務場景,就像為不同類型的演員準備了不同風格的戲劇舞臺。每個任務都對AI提出了不同的挑戰,確保評估的全面性和公正性。 第一個任務是主動識別任務,就像讓AI成為一個偵探,需要在復雜的環境中找到并識別特定的目標物體。這個任務的難點在于,目標物體往往被部分遮擋或者位于極其刁鉆的角度,AI必須主動移動視角,尋找最佳的觀察位置。這就像一個偵探在案發現場尋找線索,不能只是站在門口看一眼就下結論,而是要仔細搜查每個角落,從不同角度觀察每個可疑物品。 第二個任務是圖像目標導航,AI需要根據一張目標照片,在未知的環境中找到拍攝這張照片的確切位置。這個任務就像讓AI成為一個導游,客人給它看了一張風景照片,它需要帶著客人穿越復雜的地形,最終站在拍攝這張照片的確切地點。這個過程需要AI具備空間推理能力、路徑規劃能力,以及對環境細節的精確理解。 第三個任務是主動問答任務,AI需要在三維環境中主動探索,然后回答關于環境的開放性問題。這就像讓AI成為一個記者,被派到一個全新的地方進行實地調研,它需要主動走訪、觀察、收集信息,最后寫出一份準確的調研報告。這個任務特別考驗AI的探索策略和信息整合能力。 第四個任務是機器人操作任務,AI需要控制機械臂完成精確的物體操作。這個任務就像讓AI成為一個熟練的工匠,不僅要能看懂圖紙,還要能真正動手制作。這是四個任務中最具挑戰性的,因為它涉及到精確的物理交互,任何小的誤差都可能導致任務失敗。 研究團隊在設計這些任務時特別注重真實性和多樣性。每個任務都來源于真實世界的應用需求,而不是人為構造的簡單測試。這樣的設計確保了評估結果能夠真正反映AI在實際應用中的表現潛力。 三、統一行動接口:讓不同的AI說同一種語言 在World-in-World平臺中,一個重要的技術突破是創建了統一的行動接口系統。這個系統就像一個萬能翻譯器,能夠讓使用不同"語言"的AI模型在同一個平臺上公平競技。 不同的AI世界模型就像來自不同國家的運動員,它們各自有著不同的訓練方式和表達習慣。有些AI習慣通過文字描述來控制虛擬世界,比如"向前走三步然后左轉";有些AI喜歡用精確的相機軌跡來描述動作,比如具體的坐標和角度;還有些AI直接使用底層的動作指令,比如具體的關節角度和力度設置。 統一行動接口的作用就像一個高級的同聲傳譯系統,它能夠理解每種AI的"方言",然后將這些不同的表達方式轉換成標準的行動指令。這樣一來,無論AI原本使用什么樣的控制方式,最終都能在World-in-World平臺上執行完全相同的任務,確保了比較的公平性。 這個接口系統包含三種主要的控制方式轉換。對于喜歡用文字描述的AI,接口會將"向左轉"這樣的文字指令轉換成具體的角度旋轉。對于使用相機軌跡的AI,接口會將復雜的三維路徑轉換成一系列基礎動作。對于直接使用底層指令的AI,接口會進行相應的格式轉換和參數映射。 這種設計的巧妙之處在于,它既保持了每個AI模型的獨特優勢,又確保了評估的公平性。就像奧運會為不同項目的運動員提供統一的比賽規則和場地條件,但每個運動員仍然可以發揮自己獨特的技術風格。 四、閉環在線規劃:讓AI真正學會思考和行動 World-in-World平臺的核心創新之一是實現了真正的閉環在線規劃系統。這個系統讓AI的工作方式更加接近人類的思維模式——先觀察環境,然后制定多個可能的行動方案,預測每個方案的結果,最后選擇最優方案執行。 這個規劃系統的工作過程就像一個經驗豐富的棋手下棋。當面對一個復雜的棋局時,棋手不會沖動地直接落子,而是會在心中模擬多種可能的走法,想象每種走法可能引發的后續變化,然后選擇最有利的那一步。AI在World-in-World平臺中也是這樣工作的。 具體來說,當AI面對一個任務時,它首先會使用提議策略生成多個候選行動序列。這就像一個人在十字路口時考慮的不同路線選擇——可以直走、可以左轉、也可以右轉,每條路線都可能通向目的地,但效果可能不同。 接下來,AI會使用世界模型對每個候選方案進行虛擬演練。這個過程就像在腦海中預演不同的行動結果。世界模型會根據當前的環境狀態和候選行動,預測未來可能出現的場景。這種預測不是簡單的猜測,而是基于AI對世界運行規律的理解。 最后,AI會使用修正策略來評估所有的虛擬演練結果,選擇最有希望成功的方案。這就像一個導演在眾多劇本中選擇最能打動觀眾的那一個。修正策略會考慮多個因素,包括任務完成的可能性、執行的效率、以及可能遇到的風險。 這種閉環設計的優勢在于,它讓AI能夠從錯誤中學習,不斷調整自己的策略。當AI執行了選定的行動并觀察到實際結果后,它會將這些新信息融入下一輪的規劃中,就像一個人根據路況調整駕駛策略一樣。 五、后訓練優化:讓通用AI學會專業技能 研究團隊還開發了一種創新的后訓練方法,這種方法就像讓一個多才多藝的通用演員接受專業的角色訓練,使其能夠更好地適應特定的表演需求。 大多數AI世界模型最初都是在互聯網上的大量視頻數據上訓練的,這使得它們具備了廣泛的通用能力,能夠理解各種場景和物體。然而,這就像一個演員雖然經驗豐富,但可能對某個特定類型的角色還不夠專精。后訓練的作用就是讓這些通用的AI模型在特定的應用領域變得更加專業和精確。 后訓練過程使用的數據非常特殊——它們都是包含行動和觀察配對的序列數據。這就像給演員提供了詳細的劇本和排練視頻,不僅告訴他角色應該說什么話,還展示了角色在不同情況下的具體表現。這種數據讓AI能夠學習到行動和結果之間的精確對應關系。 研究團隊發現,即使只用相對較少的專業數據進行后訓練,AI的表現也能得到顯著提升。這個發現特別令人鼓舞,因為它意味著不需要從零開始訓練新的AI模型,而是可以在現有的強大模型基礎上進行針對性的改進。 更有趣的是,研究團隊發現了一個重要的規律:增加后訓練數據的數量會持續改善AI的表現,而且這種改善遵循一定的數學規律。這就像健身一樣,訓練量的增加會帶來體能的相應提升,而且這種提升是可以預測的。這個發現為未來的AI模型訓練提供了重要的指導原則。 六、驚人發現:顏值與實力并不成正比 World-in-World平臺揭示了AI世界模型領域的一個驚人真相——那些看起來最漂亮、視覺效果最炫酷的AI模型,在實際任務中的表現往往并不是最好的。這個發現就像發現了娛樂圈的一個秘密:最上鏡的演員未必是最會演戲的。 研究團隊通過大量實驗發現,傳統的視覺質量評估指標與實際任務成功率之間幾乎沒有相關性。一個AI模型可能生成的視頻畫質清晰、色彩鮮艷、細節豐富,看起來就像好萊塢大片一樣精美,但當它需要指導一個機器人完成具體任務時,表現可能還不如一個畫質普通但控制精確的模型。 這種現象的原因在于,視覺質量和控制能力是兩個完全不同的技能。就像一個攝影師可能非常擅長拍攝美麗的風景照片,但不一定擅長指導別人如何到達拍攝地點。AI世界模型也面臨類似的情況:生成漂亮畫面的能力和精確控制虛擬世界的能力是兩回事。 研究團隊特別強調了"可控性"這個概念的重要性。可控性就像汽車的方向盤靈敏度,一輛外觀華麗的跑車如果方向盤反應遲鈍,在實際駕駛中的表現就會很糟糕。同樣,一個AI世界模型如果不能精確地響應控制指令,即使生成的畫面再美麗,也無法在實際應用中發揮作用。 這個發現對整個AI行業具有重要的指導意義。它提醒開發者們,在追求視覺效果的同時,不能忽視控制精度的重要性。這就像提醒汽車制造商,在設計漂亮外觀的同時,不能忽視發動機性能和操控性能。 七、數據規模效應:多多益善的訓練定律 研究團隊在World-in-World平臺上發現了一個重要的規律:AI世界模型的表現與訓練數據的規模之間存在著清晰的正比關系。這個發現就像確認了"熟能生巧"這個古老智慧在AI領域的適用性。 具體來說,當研究團隊將后訓練數據從400個樣本增加到8萬個樣本時,AI模型的任務成功率呈現出穩定的上升趨勢。這種上升不是隨機的,而是遵循著可以預測的數學模式。這就像一個運動員的訓練時間與比賽成績之間的關系——訓練時間越長,成績提升越明顯,而且這種提升是可以量化預測的。 更有趣的是,研究團隊發現,使用專門的行動-觀察數據進行后訓練,比簡單地使用更大的預訓練視頻生成模型更加有效。這個發現就像發現了一個運動訓練的秘訣:針對性的專項訓練比盲目增加訓練量更能提升特定技能。 例如,一個參數量達到140億的大型AI模型,在經過相對較少的專業數據訓練后,其表現可能超過一個參數量更大但沒有經過專業訓練的模型。這說明了訓練方法的重要性——正確的訓練方向比純粹的規模擴大更有價值。 這個發現還揭示了一個實用的策略:與其從頭開始訓練一個全新的巨型模型,不如選擇一個基礎能力較強的現有模型,然后用高質量的專業數據對其進行針對性訓練。這種方法不僅更加經濟高效,而且往往能取得更好的效果。 研究團隊還發現,較大的模型在后訓練過程中表現出更強的學習能力和更少的性能飽和現象。這就像不同天賦的學生在接受相同教育時表現出的差異——天賦更高的學生往往能夠吸收更多知識,并且學習曲線更加陡峭。 八、推理時間計算:給AI更多思考時間 World-in-World平臺的另一個重要發現是,給AI分配更多的推理時間能夠顯著提升其任務表現。這個發現就像證實了一個簡單的道理:深思熟慮的決策往往比匆忙做出的決策更加明智。 在傳統的AI評估中,通常要求AI快速給出答案,就像限時考試一樣。但在World-in-World平臺上,研究團隊允許AI在做決策前進行更多的"思考"——具體來說,就是讓AI生成更多的候選方案,并對每個方案進行更詳細的虛擬演練。 實驗結果顯示,當AI每次決策時的推理次數從3次增加到11次時,任務成功率出現了明顯的提升。這就像一個棋手從快棋模式切換到慢棋模式,有了更多時間思考每一步棋的后果,自然能夠下出更好的棋。 這種現象的原理在于,更多的推理時間讓AI能夠更全面地探索可能的行動空間。當面對復雜的任務時,第一個想到的解決方案往往不是最優的,需要通過比較多個方案才能找到最佳選擇。這就像購買重要物品時,多看幾家店鋪、多比較幾個選項,往往能夠做出更滿意的選擇。 研究團隊還發現,這種推理時間的增加帶來的性能提升并不會很快達到飽和點。這意味著在計算資源允許的情況下,給AI分配更多的思考時間幾乎總是有益的。這個發現對于實際應用具有重要意義,特別是在那些對準確性要求很高、而對實時性要求相對較低的場景中。 這種發現也啟發了一種新的AI應用策略:在資源充足的情況下,可以讓AI系統花費更多時間進行深度規劃,從而在復雜任務中取得更好的表現。這就像在重要的商業決策中,花費更多時間進行市場調研和風險評估,往往能夠得出更好的決策結果。 九、全景對比局部:視野廣度的權衡 研究團隊還探索了一個有趣的問題:給AI提供全景視野是否比提供局部視野更有優勢?這個問題就像比較戴著廣角鏡頭的攝影師和使用標準鏡頭的攝影師,誰能夠拍出更好的作品。 實驗中,研究團隊比較了兩種輸入方式:一種是提供360度的全景圖像,讓AI能夠"看到"周圍的完整環境;另一種是只提供前方視野的標準圖像,模擬人類的自然視覺范圍。理論上,全景視野應該提供更多信息,從而幫助AI做出更好的決策。 然而,實驗結果卻顯示,全景輸入并沒有在所有任務中都表現出明顯優勢。這個發現出乎意料,因為直覺上認為更多的信息應該總是有利的。研究團隊分析后發現,問題可能出現在信息處理環節——當全景圖像被轉換為標準視角用于最終決策時,可能會丟失一些細節信息。 這種現象就像一個人戴著廣角眼鏡看世界,雖然能看到更大的范圍,但可能會犧牲一些細節的清晰度。在需要精確識別和操作的任務中,細節的重要性可能超過視野的廣度。 這個發現提醒我們,在設計AI系統時,需要根據具體任務的特點來選擇合適的輸入方式。對于需要空間導航的任務,全景視野可能更有優勢;對于需要精細操作的任務,聚焦的局部視野可能更合適。這就像選擇合適的工具來完成特定的工作——沒有萬能的最佳選擇,只有最適合特定情況的選擇。 十、機器人操作的挑戰:精細動作的難題 在所有測試任務中,機器人操作任務表現出了最大的挑戰性。這個發現揭示了當前AI世界模型的一個重要局限性:它們在處理需要精確物理交互的任務時仍然存在明顯不足。 機器人操作任務就像要求AI成為一個精密的外科醫生,不僅要能夠看懂解剖圖,還要能夠實際操作手術刀進行精確的切割。這種任務對AI的要求遠遠超過了簡單的視覺理解或路徑規劃,它需要AI對物理世界的運行規律有深入的理解。 研究團隊發現,即使是表現最好的后訓練模型,在機器人操作任務中的成功率提升也相對有限。這表明當前的AI世界模型在模擬復雜物理交互方面還有很大的改進空間。這些模型可能能夠很好地預測一個物體從桌子上掉落的軌跡,但要精確模擬機械手抓取物體時的力度控制、接觸點選擇、以及物體變形等復雜現象,仍然是一個巨大的挑戰。 這種限制的根源在于物理世界的復雜性。當機械手接觸一個物體時,會涉及摩擦力、形變、重心變化等多種物理現象的相互作用。這些現象的精確建模需要大量的計算資源和高度精確的物理引擎,這超出了當前視覺生成模型的能力范圍。 盡管如此,研究團隊也觀察到了一些積極的跡象。經過專門訓練的模型確實在機器人操作任務中表現出了一定的改進,這說明通過合適的訓練方法,AI世界模型在這個領域仍有提升的潛力。這就像一個學習外科手術的醫學生,雖然距離成為專家還有很長的路要走,但通過不斷的練習和學習,技能確實在逐步提升。 這個發現對于未來的研究方向具有重要的指導意義。它提示研究者們需要開發更加專業的物理建模能力,或者探索將傳統物理仿真與AI視覺生成相結合的混合方法。 十一、跨模型比較:各顯神通的AI選手 World-in-World平臺提供了一個公平的競技場,讓來自不同"門派"的AI世界模型能夠同臺競技。研究團隊測試了多種不同類型的模型,從專門為特定任務設計的專業模型,到在互聯網視頻上訓練的通用大模型,每種模型都展現出了獨特的優勢和劣勢。 專業的圖像生成模型,如PathDreamer和SE3DS,就像經驗豐富的導游,它們專門為室內導航任務而設計,對三維空間的理解非常深入。這些模型在需要精確空間推理的任務中表現出色,但它們的應用范圍相對有限,就像專業的登山向導雖然在山區非常厲害,但在城市導航中可能不如出租車司機。 通用的視頻生成模型,如Stable Video Diffusion、LTX-Video等,就像多才多藝的表演藝術家,它們在各種不同的場景中都能展現出不錯的表現。這些模型的優勢在于它們見過的"世界"更加廣闊,訓練數據涵蓋了互聯網上的海量視頻內容,因此對各種場景都有一定的理解。 有趣的是,一些最新的商業模型,如Runway Gen4,雖然在視覺質量上表現出色,但在某些實際任務中的表現卻不如一些參數量較小但經過專門訓練的模型。這再次證實了視覺質量與實際能力之間的脫節現象。 更令人驚訝的是,經過后訓練的模型往往能夠超越那些參數量更大的原始模型。例如,一個經過專門訓練的20億參數模型,在某些任務中的表現可能超過一個140億參數的未經專門訓練的模型。這個發現強調了訓練方法和數據質量的重要性,證明了"巧勁"有時比"蠻力"更有效。 研究團隊還發現,不同模型在不同任務中的表現排名會發生變化。一個在導航任務中表現優秀的模型,在機器人操作任務中可能表現平平。這種現象提醒我們,在選擇AI模型時需要根據具體的應用需求來做決定,而不是簡單地選擇"最強"的模型。 十二、開放平臺的價值:推動整個行業發展 World-in-World不僅僅是一個評估工具,更是一個開放的研究平臺,旨在推動整個AI世界模型領域的健康發展。這個平臺就像一個公共的運動場,為所有的研究者和開發者提供了一個公平競技和相互學習的機會。 傳統上,不同的研究團隊往往使用不同的評估標準和測試環境,這使得不同模型之間的比較變得非常困難。這種情況就像不同的運動員在不同的賽道上比賽,很難確定誰的真實水平更高。World-in-World平臺統一了評估標準,為所有模型提供了相同的測試條件,這使得比較結果更加可信和有意義。 平臺的開放性還體現在它歡迎任何研究者貢獻新的模型和改進方法。這種開放合作的模式有助于加速整個領域的進步,就像開源軟件社區通過集體智慧推動技術發展一樣。研究團隊希望通過這種方式,能夠吸引更多的研究者投入到實用性導向的AI世界模型研究中。 平臺還提供了詳細的性能分析工具,幫助研究者理解自己模型的優勢和不足。這些工具不僅顯示最終的成功率,還提供了詳細的失敗案例分析,幫助開發者找到改進的方向。這就像給運動員提供詳細的比賽錄像分析,幫助他們發現技術動作中的問題。 更重要的是,World-in-World平臺推動了評估標準的轉變——從單純追求視覺效果向注重實際應用能力的轉變。這種轉變對整個行業的發展方向具有重要的引導作用,有助于將研究重點轉向真正有用的技術突破。 十三、未來挑戰與機遇:AI世界模型的發展方向 通過World-in-World平臺的廣泛測試,研究團隊不僅發現了當前AI世界模型的優勢,也清晰地識別出了未來需要攻克的主要挑戰。這些發現為整個領域的未來發展描繪了一幅清晰的路線圖。 首先是泛化能力的挑戰。當前的AI世界模型在面對全新的、未見過的環境時,往往會出現性能下降的問題。這就像一個只在城市中開過車的司機突然要在山區駕駛,可能會感到不適應。研究團隊發現,大多數AI模型都存在過度依賴訓練數據的問題,當遇到與訓練環境差異較大的新場景時,它們可能會產生不合理的預測。 長期規劃能力是另一個重要挑戰。當前的AI世界模型在短期預測方面表現不錯,但在需要制定長期策略的任務中仍然存在困難。這就像一個人可能很擅長規劃今天的行程,但在制定長期職業規劃時可能會遇到困難。AI模型需要發展出更好的記憶機制和長期依賴建模能力。 精確的物理建模仍然是一個技術瓶頸。盡管當前的AI模型能夠生成視覺上令人信服的物理現象,但要實現工程級別的精確度仍然是一個巨大挑戰。這需要將傳統的物理仿真方法與AI生成技術更好地結合起來。 然而,研究團隊也看到了許多令人鼓舞的機遇。推理時間計算的效果表明,通過分配更多的計算資源,AI模型的性能可以得到顯著提升。這為未來的性能優化提供了一條清晰的路徑。 數據規模效應的發現也帶來了希望。隨著更多高質量的行動-觀察數據被收集和標注,AI世界模型的能力有望持續提升。這種改進是可預測和可量化的,為未來的模型開發提供了科學的指導。 混合架構可能是未來的一個重要發展方向。將專門的物理仿真引擎與AI視覺生成模型相結合,可能能夠實現既具有AI的靈活性又具有物理仿真精確性的理想系統。 說到底,World-in-World研究最重要的貢獻并不僅僅是技術層面的突破,更在于它改變了整個AI世界模型領域的思維方式。它提醒我們,真正有價值的AI技術不應該只是看起來炫酷,更應該能夠在實際應用中發揮作用。這種從"好看"到"好用"的價值觀轉變,可能會引導整個行業朝著更加實用和有意義的方向發展。 研究團隊的工作就像在AI發展的歷史長河中點亮了一座燈塔,為后續的研究者指明了方向。它告訴我們,評估AI能力的最好方法不是看它能生成多么精美的圖像,而是看它能否真正幫助解決現實世界中的具體問題。這種評估理念的轉變,可能會對未來AI技術的發展產生深遠的影響。 隨著越來越多的研究者開始關注AI的實際應用能力,我們有理由相信,未來的AI世界模型將不僅能夠創造出令人驚嘆的虛擬世界,更能夠在這些世界中真正發揮實用價值,幫助人類解決各種復雜的現實問題。World-in-World平臺的出現,標志著AI世界模型研究進入了一個新的時代——一個更加注重實用性和真實價值的時代。 Q&A Q1:World-in-World平臺與傳統AI世界模型評估方法有什么區別? A:傳統評估只看生成視頻的視覺質量,就像只看演員的宣傳照就決定是否讓他主演電影。而World-in-World要求AI在真實任務中表現,就像讓演員真正上臺演戲證明實力。它通過四個實際任務測試AI的真實能力,而不是單純比較畫面美觀度。 Q2:為什么視覺質量好的AI模型在實際任務中表現不一定好? A:視覺質量和控制能力是兩個不同技能,就像攝影師擅長拍美照但不一定擅長指路。AI可能生成很漂亮的視頻,但當需要精確控制虛擬世界完成具體任務時可能表現糟糕。關鍵在于"可控性"——AI能否精確響應指令,而不是畫面是否好看。 Q3:后訓練對AI世界模型有什么作用? A:后訓練就像讓通用演員接受專業角色訓練。通過使用行動-觀察配對數據訓練,AI能學會特定領域的專業技能。研究發現用較少專業數據進行后訓練,效果比簡單擴大模型規模更好,而且訓練數據越多,AI表現提升越明顯,遵循可預測的規律。





京公網安備 11011402013531號