為AI配上"眼睛"和"大腦"，讓機器真正學(xué)會空間推理

IP屬地中國·北京 科技行者 時間：2025-12-12 18:21:28

這項由中科院信息工程研究所、中科院自動化研究所與百度公司合作的研究發(fā)表于2025年，論文編號為arXiv:2512.04563v2。這是一項讓人工智能真正學(xué)會"看懂"3D世界的突破性研究，對于普通人來說意義重大。
你是否曾經(jīng)好奇，為什么小孩子看一眼就能知道哪個玩具離自己更近，而號稱"聰明"的AI卻經(jīng)常在這種簡單問題上犯糊涂？這就好比一個人有一雙明亮的眼睛，卻沒有一個會分析距離和空間關(guān)系的大腦。當前的多模態(tài)大語言模型就面臨著這樣的困境——它們能看到圖片，也能理解語言，但在判斷物體的遠近、大小和空間位置關(guān)系時，表現(xiàn)得像個"路癡"。
研究團隊發(fā)現(xiàn)了問題的根源：現(xiàn)有的AI模型就像一個只看過平面照片、從沒接觸過真實3D世界的人。它們雖然能識別圖片中的物體是什么，但對于"哪個更近"、"多大距離"這樣的空間問題，往往答非所問。更關(guān)鍵的是，以往的解決方案要么只是給AI配上更好的"眼鏡"（提升視覺感知），要么只是訓(xùn)練它的"邏輯思維"（加強推理能力），但從來沒有人想過讓這兩者真正配合起來工作。
于是，研究團隊開發(fā)了COOPER（Cooperative Perception and Reasoning的縮寫）——一個革命性的AI模型。這個名字很有意思，"cooper"本身就有"合作者"的含義，正體現(xiàn)了這項技術(shù)的核心理念：讓AI的"眼睛"和"大腦"真正學(xué)會協(xié)作。
**一、給AI裝上"3D眼鏡"：讓機器看懂空間深度**
要理解COOPER的創(chuàng)新之處，我們得先明白傳統(tǒng)AI的"視覺缺陷"在哪里。普通的AI模型看圖片，就像我們看一張平面海報——能識別出上面畫的是什么，但完全感受不到距離和深度。如果你拿一張拍攝客廳的照片問AI："沙發(fā)和電視哪個離拍照的人更近？"AI可能會根據(jù)物體在圖片中的大小來猜測，但這種猜測往往是錯的。
COOPER的第一個突破是教會AI生成"深度圖"和"分割圖"。深度圖就像給每個像素標注了到相機的距離，用顏色深淺來表示遠近——就像熱成像儀顯示溫度一樣，暖色調(diào)表示近，冷色調(diào)表示遠。分割圖則是用不同顏色給圖片中的每個物體"貼標簽"，讓AI清楚地知道哪些像素屬于哪個物體。
這個過程面臨一個技術(shù)難題：AI原本只會生成普通的彩色圖片，現(xiàn)在要讓它學(xué)會生成這些"特殊圖片"。研究團隊想出了一個聰明的辦法——把深度信息和分割信息都轉(zhuǎn)換成RGB彩色圖片的格式。具體來說，他們把深度值通過數(shù)學(xué)變換映射到RGB顏色空間，把分割的不同區(qū)域用不同的RGB顏色來表示。這樣，AI就可以用原來生成圖片的方法來生成這些輔助信息，不需要大幅改造原有架構(gòu)。
為了訓(xùn)練這個能力，研究團隊收集了大量室內(nèi)外場景的數(shù)據(jù)。室內(nèi)數(shù)據(jù)來自Hypersim合成數(shù)據(jù)集，室外數(shù)據(jù)來自Virtual KITTI數(shù)據(jù)集。他們讓AI學(xué)會識別"我要生成深度圖"和"我要生成分割圖"這樣的指令，就像訓(xùn)練一個攝影師學(xué)會切換相機的不同拍攝模式。
**二、讓AI學(xué)會"邊看邊想"：自適應(yīng)推理的奧秘**
僅僅會生成輔助視覺信息還不夠，關(guān)鍵是要讓AI知道什么時候該"看"，什么時候該"想"，以及如何把看到的和想到的結(jié)合起來。這就像一個優(yōu)秀的醫(yī)生，面對病人時知道什么時候該看X光片，什么時候該憑經(jīng)驗判斷，什么時候需要綜合各種信息做出診斷。
COOPER的第二個突破是實現(xiàn)了"自適應(yīng)交錯推理"。簡單來說，就是讓AI學(xué)會在回答空間問題時，自主決定是否需要生成輔助視覺信息，以及如何在文字思考和視覺分析之間靈活切換。
這個過程分為兩個訓(xùn)練階段。第一階段是"監(jiān)督微調(diào)"，研究團隊用GPT-4o創(chuàng)建了大量示例，展示AI應(yīng)該如何一步步分析空間問題。這些示例就像是給AI看的"標準答案"，教它學(xué)會在遇到距離判斷問題時生成深度圖，在需要計算物體數(shù)量時生成分割圖，在進行幾何推理時主要依靠文字邏輯。
第二階段是"強化學(xué)習(xí)"，這個階段更像是讓AI在實戰(zhàn)中磨練技能。研究團隊設(shè)計了一個復(fù)合獎勵機制，叫做CPR獎勵（Cooperative Perception-Reasoning Reward）。這個獎勵機制包含三個部分：答案正確性獎勵、格式規(guī)范性獎勵和探索引導(dǎo)獎勵。探索引導(dǎo)獎勵特別巧妙，它根據(jù)題目特點來判斷是否應(yīng)該使用視覺輔助——如果是那種用視覺輔助能明顯提升準確率的題目，AI選擇生成輔助圖就會獲得獎勵；反之，如果是純邏輯推理就能解決的題目，AI濫用視覺輔助反而會被"扣分"。
這種訓(xùn)練方式讓COOPER學(xué)會了"因題制宜"。面對詢問相對距離的問題，它會主動生成深度圖來輔助判斷；面對需要計算特定區(qū)域物體數(shù)量的問題，它會生成分割圖來精確定位；面對純幾何邏輯問題，它則會專注于文字推理，不被視覺信息"干擾"。
**三、實驗驗證：COOPER的"視力體檢"結(jié)果**
為了驗證COOPER的能力，研究團隊在多個測試基準上進行了全面的"體檢"。這就像給一個聲稱視力極佳的人做各種視力測試，從看遠看近到辨別顏色，全方位檢驗真實水平。
在空間理解測試中，COOPER在三個主要基準上都表現(xiàn)出色。SIBench是一個綜合性的空間推理測試，包含近20個開源基準的23種視覺空間推理設(shè)置，COOPER在這里取得了平均6.91%的提升。Q-SpatialBench專門測試距離和大小估計能力，COOPER的表現(xiàn)甚至超過了一些38B參數(shù)的大型開源模型，接近GPT-4o的水平。MMVP測試涵蓋九種不同的視覺模式和模式，COOPER同樣表現(xiàn)優(yōu)異。
更令人驚喜的是，COOPER在提升空間推理能力的同時，并沒有損害其通用能力。在MMBench和MM-Vet這兩個測試通用多模態(tài)能力的基準上，COOPER相比基礎(chǔ)模型還有4.47%的平均提升。這說明專門的空間推理訓(xùn)練實際上還提升了AI的整體理解能力。
研究團隊還做了一個有趣的對比實驗。他們分別測試了只強化"眼睛"的版本（Perception Enhancement，簡稱BAGEL-PE）和只強化"大腦"的版本（Reasoning Enhancement，簡稱BAGEL-RE）。結(jié)果發(fā)現(xiàn)，單獨強化感知能力雖然在空間任務(wù)上有提升，但通用能力有所下降；單獨強化推理能力則相反。而COOPER通過協(xié)調(diào)兩者，實現(xiàn)了雙贏。
特別值得一提的是，即使是只學(xué)會生成輔助視覺信息、還沒有進行推理訓(xùn)練的版本，在距離和大小估計任務(wù)上就已經(jīng)有了7.92%的提升。這表明僅僅是學(xué)會"看懂"3D信息，就已經(jīng)顯著提升了AI的空間理解能力。
**四、COOPER如何"思考"：推理過程全解析**
COOPER的推理過程就像一個經(jīng)驗豐富的偵探破案。面對一個空間問題，它首先會仔細分析題目，判斷這是什么類型的問題。如果是距離判斷類問題，它會生成深度圖，然后結(jié)合原圖和深度圖進行分析；如果是需要計算物體數(shù)量的情境問答，它會生成分割圖來精確識別和計數(shù)；如果是純幾何推理問題，它會主要依靠邏輯思維，不被視覺信息"誤導(dǎo)"。
舉個具體例子，當被問到"從穿4號球衣的球員角度看，他左邊有幾個隊友？"時，COOPER的思考過程是這樣的：首先分析這是一個情境問答問題，需要準確識別球員位置和相對關(guān)系，于是決定生成分割圖。生成分割圖后，它能清楚地看到每個球員的位置，然后從4號球員的視角出發(fā)，數(shù)出左邊的隊友數(shù)量，最終給出準確答案。
整個過程中，COOPER會用"..."標簽來進行文字思考，用"..."或"..."標簽來生成視覺輔助信息，用"..."標簽來給出最終答案。這種交錯式的推理過程讓AI的思考變得透明可追蹤。
**五、技術(shù)創(chuàng)新的深層意義**
COOPER的創(chuàng)新不僅僅在技術(shù)層面，更在于它改變了我們對AI能力建構(gòu)的理解。傳統(tǒng)觀點認為感知和推理是相互獨立的能力，可以分別優(yōu)化。但COOPER證明了，真正的智能來自于感知和推理的深度融合與動態(tài)協(xié)作。
從技術(shù)角度看，COOPER解決了幾個長期困擾研究者的問題。首先是統(tǒng)一架構(gòu)下的多模態(tài)生成，它證明了同一個模型可以既生成自然圖像，又生成結(jié)構(gòu)化的視覺信息。其次是自適應(yīng)能力調(diào)度，它展示了如何讓AI根據(jù)任務(wù)需求自主選擇使用哪些能力。最后是協(xié)作式推理，它開創(chuàng)了感知增強推理的新范式。
從應(yīng)用前景看，COOPER的技術(shù)有望在多個領(lǐng)域產(chǎn)生重大影響。在自動駕駛中，車輛需要精確判斷與其他車輛和行人的距離關(guān)系；在機器人導(dǎo)航中，機器人需要理解復(fù)雜環(huán)境中的空間布局；在增強現(xiàn)實應(yīng)用中，系統(tǒng)需要準確理解真實場景的3D結(jié)構(gòu)來放置虛擬物體。
**六、挑戰(zhàn)與展望**
盡管COOPER取得了顯著成果，但研究團隊也坦誠地指出了當前的局限性。目前的實驗主要集中在單圖空間推理任務(wù)上，而真實世界的應(yīng)用往往需要處理視頻流和長時間序列的空間推理。此外，COOPER目前只使用了深度和分割兩種輔助模態(tài)，未來可能需要整合更多類型的視覺信息，如3D點云數(shù)據(jù)等。
另一個技術(shù)挑戰(zhàn)是推理效率。當前版本的COOPER在每次需要生成輔助視覺信息時，都要運行完整的圖像生成流程，這在實時應(yīng)用中可能成為瓶頸。研究團隊正在探索如何在保持推理質(zhì)量的同時提升計算效率。
從更大的視角來看，COOPER開啟了"協(xié)作式AI"的新方向。未來的AI系統(tǒng)可能不再是單一功能的疊加，而是多種能力的有機融合。這種融合不僅發(fā)生在感知和推理之間，還可能擴展到記憶、規(guī)劃、創(chuàng)造等更多認知能力之間。
這項研究的另一個深遠意義在于，它為AI的解釋性提供了新思路。通過可視化的推理過程，我們不僅能看到AI得出了什么結(jié)論，還能理解它是如何得出這個結(jié)論的。這對于AI系統(tǒng)在關(guān)鍵應(yīng)用場景中的部署具有重要意義。
最終，COOPER代表了AI發(fā)展的一個重要里程碑——從單一能力的優(yōu)化轉(zhuǎn)向多能力的協(xié)同，從被動的信息處理轉(zhuǎn)向主動的策略選擇，從黑盒式的推理轉(zhuǎn)向可解釋的思考過程。這不僅讓AI更加智能，也讓AI的行為更加可信和可控。有興趣深入了解這項研究的讀者，可以通過論文編號arXiv:2512.04563v2查詢完整論文內(nèi)容。
Q&A
Q1：COOPER和其他AI視覺模型有什么本質(zhì)區(qū)別？
A：COOPER的核心區(qū)別在于實現(xiàn)了感知和推理的真正協(xié)作。傳統(tǒng)AI模型要么只是看得更清楚（感知增強），要么只是想得更深入（推理增強），而COOPER讓AI學(xué)會了根據(jù)問題類型自主決定什么時候該"看"、看什么，以及如何把看到的和想到的結(jié)合起來得出答案。
Q2：COOPER生成的深度圖和分割圖準確度如何？
A：研究顯示COOPER生成的輔助視覺信息質(zhì)量很高。在深度估計方面，它在NYUv2數(shù)據(jù)集上的表現(xiàn)可媲美專門的深度估計模型Marigold。在分割方面，COOPER往往能生成比原始標注更精細的邊界和更清晰的物體區(qū)分。
Q3：COOPER技術(shù)什么時候能在實際產(chǎn)品中應(yīng)用？
A：COOPER目前還處于研究階段，主要在學(xué)術(shù)基準上驗證效果。要真正應(yīng)用到產(chǎn)品中，還需要解決計算效率、長視頻處理等工程問題。不過，這項技術(shù)的核心思想——讓AI的不同能力協(xié)作工作——已經(jīng)為未來AI產(chǎn)品的設(shè)計指明了方向。

免責聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰(zhàn)

一加中國區(qū)總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會2025：Data+AI雙引擎實效落地，共筑智能時代新零售

安卓上線“擴展深色主題”設(shè)置，專治堅守淺色UI的“不聽話”App

國產(chǎn)GPU四小龍IPO齊活！最后一個剛剛公布

全站最新

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰(zhàn)

一加中國區(qū)總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會2025：Data+AI雙引擎實效落地，共筑智能時代新零售

熱門推薦

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰(zhàn)

一加中國區(qū)總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會2025：Data+AI雙引擎實效落地，共筑智能時代新零售

安卓上線“擴展深色主題”設(shè)置，專治堅守淺色UI的“不聽話”App

國產(chǎn)GPU四小龍IPO齊活！最后一個剛剛公布

蚌埠滕湖機場完成驗證試飛！

中國新礦物團隊再添一員！“金秀礦”正式命名背后有多難？｜封面專訪

羅永浩吐槽后，上海電信：WIFI速率不達標原因很多

李禮輝：必須加快制度創(chuàng)新，確定金融智能體的法律地位

TikTok美國迎“大結(jié)局”：持股19.9%合資方案對TikTok意味著什么？

紫光國微：在商業(yè)航天領(lǐng)域，公司的FPGA等系列產(chǎn)品正陸續(xù)導(dǎo)入

上海電信回應(yīng)“WIFI速率不達標”

TikTok內(nèi)部信“泄密”：被反復(fù)討論的“美國協(xié)議”，到底發(fā)生了什么？

我國科學(xué)家實現(xiàn)新一代光計算芯片研究新突破