![]()
↑閱讀之前記得關注+星標??,,每天才能第一時間接收到更新
AI圈里一直流傳著一句信條:“More agents is all you need”(智能體越多越好)。
大家的直覺很簡單:一個諸葛亮不夠,那就找三個臭皮匠來湊。甚至有人覺得,只要我把一堆AI拉進一個群里,讓它們互相討論、投票,無論什么任務都能做得更好
但現在,Google Research、DeepMind聯合MIT的一項重磅研究,給這個想法潑了一盆冷水
paper:
https://arxiv.org/pdf/2512.08296
![]()
他們做了一場史上最嚴苛的壓力測試,結果發現了一個反直覺的真相:
盲目組建AI團隊,不僅不能提升能力,甚至可能把原本聰明的模型搞成“人工智障”,性能暴跌70%。
為此,研究團隊總結出了一套 “智能體Scaling Law”,這是第一套能幫你算清楚“到底該單干還是群毆”的數學公式
為了搞清楚AI協作的真相,研究人員沒有只測一種模型,而是把市面上最強的三大模型——OpenAI (GPT系列)、Google (Gemini系列)、Anthropic (Claude系列) 全部拉上了擂臺
他們設計了180種不同的配置,不僅有單打獨斗的(單智能體),還有四種不同的“組隊模式”:
1.各自為戰: 大家各干各的,最后湊一起。
2.中心化指揮: 有個“經理”負責分派任務和檢查。
3.去中心化討論:大家圍成一圈開會,互相辯論。
4.混合模式:既有經理,底下人也能私聊
為了公平,不管是單人還是團隊,手里能花的錢(Token預算)和能用的工具都是一樣的
測試結果出來后,呈現出了極端的兩極分化,就像兩個平行宇宙。
宇宙一:人多力量大
在 金融分析(Finance-Agent)這類任務里,多智能體簡直殺瘋了
因為金融任務可以拆得非常細,比如A查財報,B看K線,C做風控,最后匯總。在這種場景下,找個“經理”來指揮(中心化架構),性能直接比單干提升了80.9%
宇宙二:人多即地獄
但在“規劃任務”(PlanCraft,比如在Minecraft里合成物品)里,情況完全失控
這類任務講究邏輯的連貫性:你得先砍樹,才能做木板,再做工作臺。步驟環環相扣
結果研究發現,只要引入協作,所有多智能體架構全部崩盤
因為大家七嘴八舌地討論打斷了推理的連貫性,把寶貴的計算資源都浪費在了溝通上。比起單干,性能最高暴跌了70%
還有個中間派:
模擬真實職場打工(Workbench)的任務,結果顯示,這就屬于費力不討好。折騰半天組建團隊,最好的結果也就提升了5.7%,甚至有的架構還倒退了
為什么會出現這種差異?研究團隊通過那套Scaling Law公式,像法醫一樣解剖了背后的原因,找到了三條鐵律:
鐵律1:工具越重,開會越廢(工具-協作權衡)
想象一下,如果一個工匠要用16種不同的錘子和鋸子干活
單干時,他拿起工具就干。但如果是個團隊,每換個工具都要跟隊友確認、同步信息
數據顯示,任務需要的工具越多,協作帶來的內耗就越嚴重。在這種“重工具”場景下,把資源花在溝通上簡直是浪費,不如留給單人去思考
鐵律2:高手不需要隊友(能力飽和)
研究劃定了一條殘酷的“紅線”:45%。
如果一個單智能體自己做這道題的準確率已經超過了45%,那么給它加隊友往往是負收益
就像學霸做題,自己做能得90分。非要給他配幾個60分的隊友在旁邊指指點點,最后成績反而會被拉低。
鐵律3:沒經理的團隊是災難(錯誤放大)
這是最嚇人的數據
如果你讓一群AI各自跑結果(獨立架構),卻沒人負責檢查,錯誤率會被放大17.2倍!
因為一個AI犯了錯,沒糾正,另一個AI接著錯,最后錯上加錯
只有引入“中心化”的經理角色,強制進行檢查驗證,才能把錯誤控制住(只放大4.4倍)
結論:算好這筆賬
這項研究最大的貢獻,就是告訴大家:別迷信人海戰術了
Google和MIT把這些發現濃縮成了一個預測模型。現在,只要你輸入三個數據:
1. 模型本身聰不聰明?
2. 任務要用多少工具?
3. 這任務能不能拆解?
這個公式就能以87%的準確率告訴你:該單干,還是該組隊
簡單來說,這就是一本AI算力經濟學:在預算有限的情況下,把算力花在讓一個大腦深思熟慮上,往往比讓一群大腦開會吵架更劃算——除非,你真的有一個好經理和容易拆分的任務
--end--
最后記得??我,每天都在更新:歡迎點贊轉發推薦評論,別忘了關注我





京公網安備 11011402013531號