![]()
新智元報道
編輯:KingHZ
2022年,專家們篤定AI到2025年贏得IMO金牌概率不足10%。誰料短短3年,OpenAI和谷歌DeepMind的LLM雙雙摘金,不僅打破紀錄,更宣告群體智能時代的到來!AI震撼人心,巨變勢不可擋。
2022年,預(yù)言家放言:到2025年,押注90%的概率AI拿不下國際奧數(shù)IMO金牌。
可謂言之鑿鑿,信心十足。
然而僅僅兩年,OpenAI與谷歌DeepMind雙雙擊碎了悲觀預(yù)言:
LLM不僅提前「封神」摘金,還打破了對AI能力邊界的想象。
從語言生成到邏輯推理,從通用能力到專業(yè)領(lǐng)域競技,生成式AI正以驚人的速度越過每一道人類設(shè)下的「智力高墻」。
預(yù)測錯得越離譜,AI給人的感覺就越震撼。
如今,幾乎可以確定,AI發(fā)展速度遠超過去幾年的主流預(yù)期。
巨變,才剛剛開始。
預(yù)言家集體翻車
剛剛,賓大沃頓商學(xué)院教授、生成式人工智能實驗室聯(lián)合主任Ethan Mollick非常篤定:過去,人們低估了AI發(fā)展的速度。
![]()
他舉了一個例子:
2022年,預(yù)測研究院(Forecasting Research Institute)邀請169名頂尖預(yù)測專家和學(xué)者評估AI進展。
當時,他們分別給出結(jié)論:到2025年,僅有2.3%和8.6%概率,AI能贏得國際數(shù)學(xué)奧林匹克金牌。
![]()
結(jié)果,被現(xiàn)實啪啪打臉:谷歌DeepMind的Gemini、OpenAI的ChatGPT,這兩個通用大模型拿下了2025年國際數(shù)學(xué)奧賽的金牌。
![]()
谷歌DeepMind和OpenAI爭奪AI史上第一塊「IMO金牌」:OpenAI搶先發(fā)布了自家結(jié)果,但谷歌DeepMind的模型成績獲得了IMO官方認證。
OpenAI先聲奪人,集體造勢,收獲了一大波流量:
![]()
![]()
![]()
![]()
據(jù)稱,為了尊重參賽學(xué)生,谷歌等到IMO官方認證成績后才公布了結(jié)果。
![]()
這是一個AI的歷史性時刻,標志著過去十年AI的巨大進步。
大語言模型,本為生成語言而生,但在數(shù)學(xué)上也遠超大部分人的想象。
OpenAI的研究科學(xué)家Noam Broen認為,當時的預(yù)測對LLM更悲觀:
而且需要注意的是,這些預(yù)測說的「任何」一種AI系統(tǒng)能奪得奧賽金牌。 如果換成是「大語言模型」這類通用AI系統(tǒng),他們眼中的概率更低。
![]()
而且就在國際奧數(shù)成績發(fā)布前,MathArena測評了當時的可用的大模型,沒一個能拿到銅牌:
![]()
之后,不久傳來了AI獲得金牌的消息。
![]()
在數(shù)學(xué)推理上,LLM一再被低估。
預(yù)測研究院承認:AI在國際奧數(shù)競賽上,成績驚艷。
![]()
預(yù)測失準,不是偶然,是范式變了。
事實上,在MATH、MMLU和QuALITY三個標準的AI基準測試,預(yù)測幾乎全軍覆沒。
![]()
在MATH數(shù)據(jù)集基準測試,GPT-4 Turbo在2024年4月達到了87.82%,而領(lǐng)域?qū)<液统夘A(yù)測者認為截至2024年6月30日,達到這一水平的概率為21.4%和9.3%。
在MMLU上,GPT-4o和Claude 3.5 Sonnet在2024年年中達到了88.7%,而預(yù)測的可能性只有25.0%和7.2%。
在QuALITY Hard子集上,RAPTOR + GPT-4在2023年6月得分為69.3——比截止日期早整整一年。
無論是領(lǐng)域?qū)<疫€是超級預(yù)測者,都錯誤判斷了AI發(fā)展的速度和方向。
兩組人群都低估了截至2024年底AI的最大算力,其中超級預(yù)測者的預(yù)測值只有實際最大值的1/5。與此同時,他們又高估了機器學(xué)習(xí)模型的上限:
專家預(yù)測參數(shù)規(guī)模將達到1.00E+14(100萬億),
超級預(yù)測者則給出4.00E+14(400萬億)的預(yù)期,
均比當前初步確認的1.00E+13(10萬億)參數(shù)規(guī)模高出十倍。
與此類似,麥肯錫發(fā)布過一份報告,展示了人工智能專家小組在2017年(在LLMs之前)的預(yù)測。
例如,麥肯錫預(yù)測AI將在2037年達到人類平均創(chuàng)造力水平。但實際上,在2023年這一目標已經(jīng)實現(xiàn)。
而對于達到前1/4創(chuàng)造力水平的預(yù)測,麥肯錫原本估計要到2055年,但這一目標也已經(jīng)提前30年達成。
![]()
由于生成式人工智能的發(fā)展,技術(shù)性能預(yù)計將比之前估計的更快地達到與人類中位數(shù)水平相當?shù)男阅埽⒃趶V泛的能力范圍內(nèi)達到人類前25%的頂尖水平
再例如,麥肯錫全球研究院(MGI)之前認為,在自然語言理解方面,技術(shù)最早可能在2027年達到與人類中位數(shù)相當?shù)乃剑谛碌姆治鲋校@一時間點已提前到2023年。
在2025年的報告中,麥肯錫表示在過去的兩年里,人工智能取得了飛速發(fā)展,許多重要的AI創(chuàng)新涌現(xiàn)??。
![]()
現(xiàn)實中AI進步如此神速,網(wǎng)友Aravind Sunda驚嘆:
變化之快堪稱瘋狂。2022年看似不可能的事,現(xiàn)在已觸手可及。
![]()
2022年11月30日,ChatGPT正式公布。而之前,生成模型或GenAI更多指圖像、視頻等生成模型,OpenAI還在探索GPT的應(yīng)用場景。
![]()
所以,ChatGPT有可能才是最大的變量,正如網(wǎng)友Mahaoo所言:
在ChatGPT和GPT-4問世之前的所有預(yù)測,幾乎都注定嚴重低估了AI的實際進展。因為這些模型的橫空出世,讓外界第一次真正看清了AI的潛力和速度。
![]()
不過,LLM存在鋸齒型智能現(xiàn)象:在某一方面表現(xiàn)出色,另一方面一塌糊涂。
![]()
威斯康星大學(xué)計算機科學(xué)教授Pedro Domingos就質(zhì)疑了這種概括性結(jié)論:
AI在某些領(lǐng)域確實領(lǐng)先,但在其他領(lǐng)域則不然。基于預(yù)測家考慮的少數(shù)領(lǐng)域,很難做出這樣一概而論的判斷。
![]()
或許,人們常常高估AI短期的發(fā)展,而總是低估它的長期進步。
![]()
而一個更大的轉(zhuǎn)變正在醞釀:我們正進入「大眾智能」時代,強AI變得像谷歌搜索一樣容易獲取。
![]()
群體智能時代
對于大多數(shù)用戶來說,訪問強AI一直有兩個障礙
1. 困惑:很少有人知道該怎么選AI模型。
2. 成本:頂級模型很貴,免費用戶往往用不了,或者只有非常有限的訪問權(quán)限。
而GPT-5本計劃解決這兩個問題:利用路由機制,避免簡單問題浪費算力,自動選擇模型,從而讓更多人有機會使用推理模型等強AI。
![]()
這套機制在上線初期解釋不足,路由判斷也經(jīng)常失靈,看起來亂七八糟、讓人困惑。盡管如此,奧特曼很快宣布GPT-5取得了初步成功:
上線幾天內(nèi),經(jīng)常使用推理模型的付費用戶比例從7%升至24%,而免費用戶中能接觸到頂尖模型的比例也從幾乎為零提高到了7%。
![]()
推動這一切變化的,還有模型效率的飛躍。
AI變得越來越聰明,但運行成本卻急劇下降。下圖直觀展示了這一趨勢。
![]()
這些改進帶來的直接后果就是:哪怕AI越來越強大,它也變得足夠便宜,可以普惠大眾。
服務(wù)新增用戶的邊際成本,幾乎崩塌式下降。這也讓廣告等商業(yè)模式成為可能。
兩年前要花上幾美元的提示任務(wù),如今免費用戶就能輕松運行。
這就是十億人突然擁有強大AI的真正原因:并不是因為某個宏大的「平民化AI」愿景,而是因為算力經(jīng)濟學(xué)終于走到這一步。
不過,光能用上強AI還不夠,關(guān)鍵是人們要能真正用它來完成任務(wù)。
過去,高效使用AI是「黑科技」魔法:
要靠精心編寫提示詞,
利用思維鏈(chain-of-thought)等技巧,
再配合各種小竅門,才能逼近理想答案。
但最近的一系列實驗表明,這些技巧已經(jīng)不再重要。
![]()
傳送門:https://gail.wharton.upenn.edu/research-and-insights/tech-report-chain-of-thought/
如今的頂尖模型越來越擅長直接理解并完成請求,甚至能「揣摩」用戶的真實意圖,自動超出預(yù)期去完成任務(wù)。
而且,變化不僅發(fā)生在文本模型上。
最近,谷歌發(fā)布了一款全新的圖像模型,內(nèi)部代號「nano banana」。
它不僅在圖像編輯上表現(xiàn)出色(甚至比生成全新畫面還更穩(wěn)定),而且便宜到足以開放給免費用戶使用。
更關(guān)鍵的是,它終于能很好地理解自然語言指令,省去了復(fù)雜的「提示詞工程」。
當數(shù)億人掌握強AI,各種現(xiàn)象會同時發(fā)生。事實上,它們已經(jīng)在發(fā)生了:
有人與AI模型建立了深厚的情感關(guān)系,也有人借此擺脫孤獨;
有人因為AI而走向精神崩潰或危險行為,也有人利用AI診斷疾病、挽救生命
衍生出了數(shù)以千計的意想不到的用途。
隨著模型愈發(fā)強大,這些應(yīng)用場景、問題與益處只會成倍增長。
AI巨頭——無論你是否相信它們關(guān)于「安全」的承諾——根本無法完全消化這股浪潮。
當十億人同時擁有先進AI時,人類真正進入了所謂的群體智能時代。
我們所有的制度——學(xué)校、醫(yī)院、法庭、公司、政府——過去都建立在「智能稀缺而昂貴」的前提之上。
如今,每一個職業(yè)、每一家機構(gòu)、每一個社區(qū),都必須重新思考:
如何在群體智能的環(huán)境中生存與繁榮?
如何在全民造假的世界里重建信任?
如何在普及知識的同時,保留人類專業(yè)經(jīng)驗的價值?
參考資料:
https://x.com/emollick/status/1962859757674344823
https://www.mckinsey.com/~/media/mckinsey/business%20functions/mckinsey%20digital/our%20insights/the%20economic%20potential%20of%20generative%20ai%20the%20next%20productivity%20frontier/the-economic-potential-of-generative-ai-the-next-productivity-frontier.pdf
https://www.oneusefulthing.org/p/mass-intelligence
![]()





京公網(wǎng)安備 11011402013531號