![]()
新智元報道
編輯:Aeneas
Epoch AI年終大盤點來了!出乎意料的是,AI沒有停滯,反而變快了。
最近,Epoch AI又發了不少東西。
他們在FrontierMath上測試了幾個開源權重的中文模型。
結果是,它們在1-3級的最高得分,要落后于全球頂尖AI模型大約七個月。
![]()
而在較難的第四級,幾乎所有開源中文大模型都掛了零蛋。
唯一得分的選手,只有DeepSeek-V3.2 (Thinking)。它回答對了一道題,取得了1/48 ≈ 2%的分數。
![]()
![]()
當然,雖然這些中文開源大模型掛蛋了,外國模型們表現也很差。
GPT、Gemini這些頂尖模型,在傳統的數學測試(比如 GSM-8k、MATH)上簡直一路飆分。然而在FrontierMath上,它們的正確率也并不高。
不過從表中可以看出,它們的表現至少要比中文開源模型好一些。原因是為什么呢?暫時沒找到。
而所有AI模型都考不好,是因為FrontierMath不是普通的benchmark,而是由60+名數學界頂尖專家聯手出題,更有菲爾茲獎得主背書 。
它是一套真正的數學大考卷,不是那種簡單的公式代入、算算微積分的小測驗,而是專家級的原創難題,覆蓋數論、實分析、代數幾何、范疇論等,甚至是科研級別、要花數小時甚至數天才能解開的難題。
這也證明了,在真正難的數學問題 上,AI 現在還不是「做題機器」,更像是偶爾翻到答案的小學生。
AI進化,又加速了
此外,他們還出了一份最新數據洞察,結論令人驚喜——
AI的能力增長,比以前更快了!
![]()
他們用一個叫Epoch Capabilities Index(ECI)的綜合指標,追蹤了前沿 AI 模型能力的發展趨勢。
結果顯示:自2024年4月開始,AI 能力增長速度明顯加快——比之前的增長速度快了近一倍!
也就是說,在過去的幾年里,AI的能力不是一條穩定的上升線——而是在某個時間點突然開始更快地往上沖刺。
背后原因就是這兩個:推理模型更強了,強化學習更受重視了。
![]()
很多人會覺得,如今的AI進展變慢了,因為GPT-4發布后,就再沒看到巨大的飛躍。
但數據顯示,其實AI的進步從來沒停過,只是方向和節奏變了。它一直在某些核心技能上加速,比如推理能力,而不是靠「更大模型 + 更多參數」。
![]()
![]()
年度TOP十大洞察
并且,就在剛剛,Epoch AI出了一篇硬核年終回顧。
![]()
在整個2025年,他們發布了36篇數據洞察和37篇通訊。
在這70短篇關于AI的短調查中,哪些是最受歡迎的?
Epoch AI給我們來了個年終盤點。
以下這10個調查,是最受讀者歡迎的。
前5個,是最受歡迎的數據洞察。
1.AI推理成本瘋狂降價
嚴謹一點說,就是LLM推理價格在不同任務中迅速但不均衡地下降。
在2023年4月至2025年3月期間,Epoch AI觀察到在同等性能水平下,每枚token的價格下降了10倍以上。
也就是說,AI每一次推理(輸出回答)的價格都下降了10倍以上。
![]()
越來越便宜,就意味著AI的普及會更加無門檻:從此,它不再是「大廠拿得起」的技術,而是人人都能用得起的工具!
2.AI「大腦」正跑到你的電腦里
短短一年內,前沿AI性能就已在消費級硬件上實現。
目前能在消費級GPU上運行的頂級開源模型,在GPQA、MMLU、AA Intelligence和 LMArena等多項性能指標上,并且與頂尖AI的差距不到一年,甚至更短。
![]()
既然最強開源模型能在普通的消費級顯卡上運行,那么在不久的將來,你的筆記本可能就能跑AI大模型了!
而且任何最前沿的AI能力,都可能在不到一年內被公眾廣泛獲取。
3. OpenAI 2024的大多數算力,其實都用在了試驗上
媒體報道顯示,2024年OpenAI的大部分計算資源并未用于推理或訓練,而是用于做實驗,以支持進一步開發。
![]()
是的,不是你想的那樣:不是訓練就是24/7為用戶提供服務,它更多是在試錯、探索、實驗。
這說明,目前的AI研發仍然非常依賴大量實驗,而不只是跑幾個benchmark就完事。
同時,當前AI的成本也大多來自于實驗,而非訓練和部署。
4. 英偉達芯片算力,每10個月翻一倍!
自2020年以來,英偉達芯片的已部署AI計算量每年增長超過一倍。
每發布一款旗艦芯片,它在三年內就會占據現有計算量的絕大部分。
![]()
所以可以說,GPU仍然是AI運算的核心燃料,而且增長速度快得飛起。
而為了維持當前AI發展的腳步,計算資源還需要再成倍增加,老黃和其他芯片商還有的賺!
5. GPT-4和GPT-5,都是大飛躍
盡管有人吐槽OpenAI更新太快看不出進步,但不要信他們的!
無論是GPT-4還是GPT-5,都在基準測試中都實現了重大飛躍,大大超越了它們前代產品的性能。
![]()
所以,今年的AI不是微創新的堆疊,而是真正的能力躍遷。
那為什么GPT-5發布后,許多人感覺很失望?
這是因為,過去兩年新模型發布的頻率更高了,而非能力放緩了。
Gradient最熱TOP 5:洞見背后的思考
接下來5個,是最受歡迎的Gradient專欄文章。
Gradient是Epoch AI的專欄,專門發表簡短的快訊。
6. ChatGPT耗電驚人?并不是
GPT-4o的每次推理,平均耗能究竟是多少?
答案是,比點亮一個燈泡五分鐘的耗電量還要少。
這個結論,也得到了奧特曼的證實,和谷歌報告的每條Gemini prompt的能量成本相似。
![]()
也就是說,外界對于AI消耗能源的擔憂,其實比實際情況要夸張了。
當然,AI的能源消耗一直在指數級增長,未來可能會成為大問題。
7. DeepSeek如何改進了Transformer架構?
一文講清了DeepSeek v3用哪三項核心技巧,在算力更低的情況下拿下了當時最強開源模型的位置。
三個技術是,多頭潛在注意力(MLA)、混合專家(MoE)架構的改進,以及多token預測機制。
![]()
就在這篇文章發布后三天,DeepSeek發布了R1,引起了全球AI圈的大地震。它的性能跟OpenAI o1相當,但開發成本卻是幾分之一。
整個AI圈都被上了一課:精妙的架構創新 = 更低的研發成本 + 更快的落地速度。
8. 推理模型能走多遠?局限在哪?
作者分析了推理訓練的增長模式和上限。結論是:推理確實重要,但增長不會無限爆炸。
![]()
OpenAI、Anthropic在2025年初就曾表示,它們當前的RL擴展速度最多只能維持1–2年,很快就會觸及自身算力基礎設施的上限。
推理能力已經成為模型訓練中一個極其重要的擴展維度,并在數學、軟件工程上帶來了非常亮眼的效果。
然而,這一方向的增長存在明顯邊界,這也意味著,2024–2025年模型能力的爆發式提升,可能很快就會放緩。
對研發規劃來說,這是重要的現實提醒。
9. 「AI曼哈頓計劃」有多大?
Epoch AI用曼哈頓計劃、阿波羅計劃做對比,估算出一個美國國家級AI項目可能達到的規模。
他們的結論是:這個項目足以支撐一次規模達到GPT-4的1萬倍的訓練任務。
![]()
也就是說,當AI被視為國家戰略級科技項目時,它的級別真能放大很多倍!
10.AI的最大價值,并不來自搞科研?
最后這一篇,十分有趣。
我們常常聽到一種敘事:AI一旦能自動做科研,技術就會指數級爆炸,人類生產力就會迎來史詩級躍遷。
但Epoch AI給出了一個更冷靜的判斷——
AI創造的大部分價值,可能并不是來自加速研發(R&D),而是來自對整個經濟體系中大量工作的廣泛自動化。
這是因為,從歷史數據看,在1988–2020年這三十多年里,研發活動對整體生產率的貢獻其實相當有限。
就算AI把「科研效率」拉滿,真正撬動經濟的,未必是實驗室里的突破,而是日常工作方式的改變。
![]()
這里,就存在一個關鍵分歧!
要知道,像奧特曼、Demis Hassabis、Dario Amodei這些領軍人物,論調都是「AI自動化研發,是通向爆發式增長的關鍵」。
如果這個判斷成立,那么AI的影響就會很迅猛,很劇烈。它會突然跨過「科研自動化的最后一道門檻」,在少數AI公司內部實現巨大飛躍。
但Epoch AI提出的,卻是另一種可能性,也是更「社會學」的版本。
AI更可能通過一個緩慢而分散的過程,來改變世界。
不是一夜之間,而是幾年甚至幾十年,AI會逐步被不同行業、不同組織吸收,替代重復勞動。
如果真是這樣,AI的革命不會是一聲巨響,而是一場長時間的潮水。
參考資料:
https://x.com/EpochAIResearch/status/2003510001277747518
https://x.com/EpochAIResearch/status/2003559099867496872
https://epoch.ai/data-insights/ai-capabilities-progress-has-sped-up
https://x.com/EpochAIResearch/status/2003178174310678644
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
![]()





京公網安備 11011402013531號