當(dāng)前位置：首頁 ? 資訊 ? 新科技 ? 正文

一份沒有標(biāo)準(zhǔn)答案的AI考卷，頂尖模型集體失靈

IP屬地中國(guó)·北京 DeepTech深科技 時(shí)間：2025-12-25 20:22:37

最近一兩年，大型語言模型在各類標(biāo)準(zhǔn)化測(cè)試上的表現(xiàn)已經(jīng)讓人有點(diǎn)審美疲勞。MMLU（Massive Multitask Language Understanding，大規(guī)模多任務(wù)語言理解）曾經(jīng)是衡量模型能力的黃金標(biāo)準(zhǔn)，2022 年時(shí) 540 億參數(shù)的 PaLM 勉強(qiáng)跨過 60％的及格線，到了 2024 年，微軟只用 38 億參數(shù)的 Phi-3-mini 就達(dá)到了同樣水平。
斯坦福大學(xué) 2025 年 AI 指數(shù)報(bào)告直言不諱地指出，MMLU、GSM8K、Humaneval 這些傳統(tǒng)基準(zhǔn)測(cè)試正在“飽和”，頂尖模型的分?jǐn)?shù)已經(jīng)逼近甚至超越人類水平，它們不再能有效區(qū)分模型之間的能力差異。
這引發(fā)了一個(gè)尷尬的問題：當(dāng)考試變得太簡(jiǎn)單，我們?cè)趺粗勒l真的學(xué)會(huì)了？
2025 年 6 月，紐約大學(xué)和普林斯頓大學(xué)等高校的研究人員等人推出了 LiveCodeBench Pro，一個(gè)由奧賽獎(jiǎng)牌得主們策劃的競(jìng)賽級(jí)編程基準(zhǔn)測(cè)試。它從 Codeforces、ICPC、IOI 等頂級(jí)賽事實(shí)時(shí)抓取題目，試圖通過“防污染”設(shè)計(jì)來解決數(shù)據(jù)泄露問題。在那個(gè)基準(zhǔn)上，最好的模型在中等難度題目上也只有 53％的通過率，在高難度題目上直接歸零。但 LiveCodeBench Pro 仍然采用傳統(tǒng)的“通過／不通過”評(píng)判方式——要么全對(duì)，要么不得分。
為了解決這個(gè)問題，半年后，一支匯聚了加州大學(xué)伯克利分校、普林斯頓、加州大學(xué)圣地亞哥分校等多所頂尖高校成員的聯(lián)合團(tuán)隊(duì)，共同推出了 FrontierCS。
這支團(tuán)隊(duì)可謂匯聚了基準(zhǔn)測(cè)試領(lǐng)域的“全明星陣容”：除了打造了 LiveCodeBench Pro 的柴文浩及其團(tuán)隊(duì)，另一位核心共同負(fù)責(zé)人冒峘志此前主導(dǎo)的伯克利函數(shù)調(diào)用排行榜（Berkeley Function Calling Leaderboard, BFCL）也早已成為評(píng)估大模型工具使用能力的重要業(yè)界標(biāo)準(zhǔn)。兩項(xiàng)高質(zhì)量基準(zhǔn)測(cè)試的主導(dǎo)者強(qiáng)強(qiáng)聯(lián)手，使得 FrontierCS 在設(shè)計(jì)之初就具備了更全面、專業(yè)的評(píng)測(cè)視角的評(píng)測(cè)視野，為其嚴(yán)謹(jǐn)性提供了有力背書。

（研究團(tuán)隊(duì)）
這次，團(tuán)隊(duì)所構(gòu)建的并非又一套“更難的選擇題”，而是在評(píng)測(cè)范式上做出了根本性轉(zhuǎn)變。

圖丨相關(guān)論文（arXiv）
它包含 156 道計(jì)算機(jī)科學(xué)領(lǐng)域的開放式問題，覆蓋算法優(yōu)化、操作系統(tǒng)、高性能計(jì)算、數(shù)據(jù)庫(kù)、人工智能研究等多個(gè)方向。與傳統(tǒng)基準(zhǔn)測(cè)試最大的不同在于：這些問題沒有已知的最優(yōu)解，但每個(gè)答案的質(zhì)量都可以被客觀量化評(píng)分。
想象一下，你要把一堆形狀各異的俄羅斯方塊（學(xué)名叫多連塊，Polyomino）盡可能緊密地塞進(jìn)一個(gè)矩形網(wǎng)格里。最緊密的擺法是什么？沒人知道。但給定任意一種擺法，我們可以精確計(jì)算出它的密度（占據(jù)面積除以總面積）。人類專家在這道題上能達(dá)到 87％的密度，而 GPT-5 Thinking 只做到 47％。兩種擺法都未必是最優(yōu)解，但密度這個(gè)連續(xù)指標(biāo)能直觀地反映出相對(duì)表現(xiàn)：誰的解法更好，一眼就能看出來。

（arXiv）
FrontierCS 的核心設(shè)計(jì)者之一、來自伯克利的博士生忙秋陽在接受采訪時(shí)解釋了這種設(shè)計(jì)背后的邏輯：“我們會(huì)刻意挑選那些本身是開放式的、最終解未知，但又能客觀打分的題目。比如給定一個(gè) SAT 問題，我們都知道它是 NP-hard 的，嚴(yán)格求最優(yōu)在現(xiàn)實(shí)里往往不可達(dá)。但我們可以看它最多滿足了多少約束條件，然后據(jù)此給出分?jǐn)?shù)。這個(gè)分?jǐn)?shù)是客觀的，完全符合題目要求，也能夠被驗(yàn)證。”
這種設(shè)計(jì)解決了傳統(tǒng)基準(zhǔn)測(cè)試的兩個(gè)痼疾。第一個(gè)是數(shù)據(jù)污染問題。當(dāng)測(cè)試題和答案都已公開，模型完全可能在預(yù)訓(xùn)練階段就“背”過這些題，分?jǐn)?shù)高不代表真正理解。FrontierCS 的題目雖然公開，但由于沒有標(biāo)準(zhǔn)答案可背，模型必須真正“動(dòng)腦子”才能拿分。
第二個(gè)問題是評(píng)測(cè)粒度太粗。傳統(tǒng)基準(zhǔn)測(cè)試通常采用“通過／不通過”的二元評(píng)判，SWE-bench 上解決一個(gè)極難的 issue 和解決一個(gè)簡(jiǎn)單的 issue 都只能算“做對(duì)一題”。而 FrontierCS 為每道題設(shè)計(jì)了連續(xù)的評(píng)分函數(shù)，能夠精確刻畫模型在“做得多好”這個(gè)維度上的差異。

（arXiv）
這套基準(zhǔn)測(cè)試分為兩個(gè)賽道。算法賽道包含 107 道題，大多改編自 IOI（國(guó)際信息學(xué)奧林匹克）、ICPC（國(guó)際大學(xué)生程序設(shè)計(jì)競(jìng)賽）世界總決賽等頂級(jí)編程競(jìng)賽，但被重新設(shè)計(jì)成開放式版本。研究賽道有 49 道題，來自真實(shí)的計(jì)算機(jī)科學(xué)研究場(chǎng)景，比如設(shè)計(jì)向量數(shù)據(jù)庫(kù)索引以平衡查詢延遲和召回率，或者優(yōu)化 GPU 內(nèi)核代碼。
在算法賽道上，人類專家的平均得分是 95.41 分，而表現(xiàn)最好的 Gemini 3.0 Pro 只拿到 29.37 分。GPT-5 Thinking、Claude Opus 4.5、DeepSeek V3.2 Thinking 等當(dāng)紅模型的得分都在 10 到 15 分之間徘徊。

圖丨在算法賽道上的基準(zhǔn)測(cè)試結(jié)果（arXiv）
即使把采樣次數(shù)從 1 次增加到 5 次，取最高分（Score@5），最好的模型也只能達(dá)到 52 分左右。研究賽道的情況稍好一些，Claude Opus 4.5 以 29.40 分領(lǐng)先，但同樣遠(yuǎn)低于人類水平。
通過對(duì)模型行為模式進(jìn)行更細(xì)致的觀察，團(tuán)隊(duì)還發(fā)現(xiàn)了一些有意思，甚至違反直覺的現(xiàn)象。柴文浩在采訪中提到：“在 LiveCodeBench Pro 這樣的基準(zhǔn)測(cè)試上，我們觀察到‘思考越多表現(xiàn)越好’幾乎是鐵律。但在 FrontierCS 上，這個(gè)規(guī)律不再成立。模型的推理是有上限的，超過這個(gè)上限之后，多花的那部分‘思考’，未必能帶來直接的收益提升。”
研究團(tuán)隊(duì)做了一個(gè)對(duì)照實(shí)驗(yàn)：把 GPT-5 Thinking 的推理強(qiáng)度分別設(shè)為低、中、高三檔。從低到中，平均得分從 7.9 分漲到 15.3 分，符合預(yù)期。但從中到高，分?jǐn)?shù)反而從 15.3 分掉到 12.6 分。這或許意味著當(dāng)前推理模型的訓(xùn)練方式可能存在根本性的局限，它們被訓(xùn)練來“找到正確答案”，而不是“找到更好的答案”。
團(tuán)隊(duì)對(duì)此的解釋是：“模型更擅長(zhǎng)的，其實(shí)是讀懂教科書式的問題。它的推理本質(zhì)上是：我給你一道算法競(jìng)賽題，你可以很快把它歸類到某個(gè)常見套路上。但面對(duì)開放式問題，這種思路就行不通了。”
他舉了個(gè)例子：在交互式問題（Interactive Problems）上，模型的表現(xiàn)尤其糟糕。這類題目要求你通過多輪查詢來推斷某個(gè)隱藏的結(jié)構(gòu)，不存在任何可以直接套用的教科書算法。“這些題不會(huì)出現(xiàn)在任何 textbook 里。每一個(gè)開放式問題都需要先觀察題目的性質(zhì)，再利用這些性質(zhì)去構(gòu)造更優(yōu)的解法。”

（arXiv）
團(tuán)隊(duì)還觀察到一個(gè)“微優(yōu)化陷阱”：模型經(jīng)常會(huì)陷入一些細(xì)枝末節(jié)的優(yōu)化，而忽略了核心的算法選擇。論文中舉了多連塊打包問題的例子，GPT-5 Thinking 傾向于直接用輸出格式（變換列表）作為內(nèi)部數(shù)據(jù)結(jié)構(gòu)，這雖然節(jié)省內(nèi)存，但會(huì)讓碰撞檢測(cè)和空間搜索變得極其繁瑣，導(dǎo)致 30％的嘗試直接輸出無效代碼，剩下 70％也只能拿到低分。
而如果在提示詞中加一句“請(qǐng)用二維數(shù)組維護(hù)矩形狀態(tài)，最后再轉(zhuǎn)換成輸出格式”，模型的表現(xiàn)就會(huì)大幅改善。這說明當(dāng)前模型缺乏識(shí)別“什么優(yōu)化才是重要的”的能力，它們?nèi)菀妆槐砻嫔虾侠淼珣?zhàn)略上無關(guān)緊要的細(xì)節(jié)所吸引。
Claude 系列模型展現(xiàn)出了一種獨(dú)特的“研究—工程分裂癥”。在算法賽道上，Claude Sonnet 4.5 只拿到 5.84 分，是所有測(cè)試模型中最低的；但在研究賽道上，Claude Opus 4.5 以 29.40 分拔得頭籌。
柴文浩分析道：“Claude 往往會(huì)給出一個(gè)相對(duì)簡(jiǎn)單、工整、穩(wěn)定、不容易出錯(cuò)但并非最優(yōu)的解，然后就停住了。所以它更適合做一些工程類的事情，在 algorithm track 上表現(xiàn)就非常一般。”這與 Claude 在 SWE-bench Verified 上的亮眼表現(xiàn)形成對(duì)照，那個(gè)基準(zhǔn)測(cè)試評(píng)估的恰恰是解決真實(shí)軟件工程問題的能力。
當(dāng)然，開放式基準(zhǔn)測(cè)試也有其局限。冒峘志坦承，雖然 FrontierCS 的題目設(shè)計(jì)決定了不存在可以“背誦”的標(biāo)準(zhǔn)答案，但如果只是想達(dá)到某個(gè)中等分?jǐn)?shù)（比如 50 分），理論上仍然可以通過訓(xùn)練高分軌跡（trace）來“抄近道”。此外，不同題目之間的分?jǐn)?shù)并不直接可比，一個(gè)系統(tǒng)研究任務(wù)的 70 分和一個(gè)算法優(yōu)化任務(wù)的 70 分，含義可能完全不同。
為了緩解這個(gè)問題，為緩解可比性問題，團(tuán)隊(duì)曾討論用基于 Elo rating 的排名方案做相對(duì)比較，但也認(rèn)為它未必最優(yōu)：Elo 需要大量 battle 數(shù)據(jù)，成本很高。更現(xiàn)實(shí)的方案是按總體分布劃分區(qū)間，給出 A／B／C／D 之類的等級(jí)分檔（例如前 15％為 A、再后 25％為 B），用分檔呈現(xiàn)相對(duì)水平。
在談到 FrontierCS 的長(zhǎng)期規(guī)劃時(shí)，忙秋陽說：“這些題目的本質(zhì)決定了它很難做到絕對(duì)飽和。最多是我們給的這些人類參照可能會(huì)被模型超過，但即使兩年后所有人類參照都被超過了，也不意味著這個(gè)題就被‘解決’了。我們?nèi)匀豢梢粤炕恳坏李}目前被做到什么程度。”
研究團(tuán)隊(duì)設(shè)計(jì)了三種難度升級(jí)機(jī)制：添加新問題、在不改變題目描述的前提下收緊約束條件（比如更嚴(yán)格的時(shí)間限制或更大規(guī)模的測(cè)試用例）、以及在模型接近或超越人類基準(zhǔn)時(shí)更新參考解和評(píng)分閾值。這確保了基準(zhǔn)測(cè)試能夠隨著模型能力的提升而“進(jìn)化”，避免再次陷入飽和困境。
這種“動(dòng)態(tài)進(jìn)化”的機(jī)制，正是 FrontierCS 區(qū)別于傳統(tǒng)評(píng)測(cè)集的關(guān)鍵。
在另一位核心貢獻(xiàn)者李知非看來，F(xiàn)rontierCS 的設(shè)計(jì)反映了 AI 發(fā)展的一個(gè)重要趨勢(shì)：從單一模型向“AI 驅(qū)動(dòng)的系統(tǒng)（AI-Driven Systems）”演進(jìn)。他認(rèn)為，未來的 AI 可能不再是單純給出靜態(tài)答案的模型，而是能夠生成海量候選方案，并通過驗(yàn)證器自動(dòng)篩選（Filter）甚至修正（Refine）代碼的復(fù)雜系統(tǒng)。面對(duì)這種具備“暴力破解”潛力的系統(tǒng)，傳統(tǒng)的靜態(tài)測(cè)試可能會(huì)失效。
“真正的挑戰(zhàn)在于，能否在沒有標(biāo)準(zhǔn)答案的開放空間里，持續(xù)找到更優(yōu)的解。”李知非解釋道，F(xiàn)rontierCS 利用了算法與系統(tǒng)領(lǐng)域天然具備的“可靠驗(yàn)證器（Reliable Verifier）”，例如算法的時(shí)空復(fù)雜度或系統(tǒng)的吞吐量與延遲，以此構(gòu)建連續(xù)的評(píng)分階梯。這促使 AI 系統(tǒng)不能止步于“做對(duì)”，而是在算法設(shè)計(jì)與系統(tǒng)優(yōu)化的閉環(huán)中嘗試尋找更優(yōu)解。
團(tuán)隊(duì)將這種設(shè)計(jì)理念總結(jié)為“Evolving Challenges for Evolving Intelligence”（進(jìn)化的智能需要進(jìn)化的挑戰(zhàn)）。他們希望 FrontierCS 不僅是一個(gè)評(píng)估工具，未來也能成為支持下一代 AI 系統(tǒng)（ADRS）進(jìn)行自主探索和演進(jìn)的驗(yàn)證平臺(tái)。
從更宏觀的視角看，F(xiàn)rontierCS 的意義不僅在于提供一個(gè)更難的測(cè)試，而在于它為強(qiáng)化學(xué)習(xí)訓(xùn)練開辟了新的可能性。傳統(tǒng)代碼生成任務(wù)的獎(jiǎng)勵(lì)信號(hào)是二元的，要么通過測(cè)試，要么不通過。而 FrontierCS 的每道題都提供連續(xù)的、可驗(yàn)證的質(zhì)量分?jǐn)?shù)，這天然適合作為 RL 訓(xùn)練的獎(jiǎng)勵(lì)。
團(tuán)隊(duì)在采訪中表達(dá)了這個(gè)愿景：“我們希望社區(qū)能在這些開放式問題上找到更好的訓(xùn)練方式，讓模型愿意多想一點(diǎn)，也能因此拿到更多分。”如果這個(gè)愿景實(shí)現(xiàn)，模型或許能學(xué)會(huì)一種新的思維模式，不是“找到正確答案然后停止”，而是“持續(xù)探索更好的方案”。
幾十年來，計(jì)算機(jī)科學(xué)的許多核心問題，如調(diào)度算法、背包問題、電路設(shè)計(jì)等都是典型的開放式優(yōu)化問題。它們沒有一勞永逸的最優(yōu)解，只有在特定約束下的更好近似。如果大語言模型想要從進(jìn)化為真正的“研究員”，它們必須學(xué)會(huì)在這種沒有標(biāo)準(zhǔn)答案的迷霧中導(dǎo)航。FrontierCS 提供的，正是這樣一片實(shí)驗(yàn)場(chǎng)地。
正如論文結(jié)尾所寫：當(dāng)前的大型推理模型在開放式優(yōu)化和系統(tǒng)級(jí)權(quán)衡方面仍然脆弱，在封閉式編程任務(wù)上的能力并不能可靠地遷移到開放式問題求解。這不是一個(gè)可以通過簡(jiǎn)單堆疊算力或延長(zhǎng)思考時(shí)間來解決的問題。某種意義上，它指向的是當(dāng)前 AI 能力的一個(gè)結(jié)構(gòu)性盲區(qū)——我們訓(xùn)練模型去尋找“正確”的答案，卻沒有教會(huì)它們什么是“更好”。
參考資料：
1.https://arxiv.org/abs/2512.15699
2.https://frontier-cs.org/
3.https://github.com/FrontierCS/Frontier-CS
運(yùn)營(yíng)/排版：何晨龍

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

鏖戰(zhàn)2025年，大模型圍著開源轉(zhuǎn)

“十四五”期間，我國(guó)5G用戶普及率從15%增至83.9%

舊金山一場(chǎng)停電，為什么馬斯克會(huì)“幸災(zāi)樂禍”？

魯豫對(duì)話鴻蒙開發(fā)者：把興趣寫進(jìn)系統(tǒng)里的年輕人

華碩終于發(fā)布RTX 5090D v2顯卡！OC版已正式上架：19999元

張一鳴押注、豆包加持！字節(jié)AR眼鏡外觀圖曝光

全站最新

鏖戰(zhàn)2025年，大模型圍著開源轉(zhuǎn)

“十四五”期間，我國(guó)5G用戶普及率從15%增至83.9%

舊金山一場(chǎng)停電，為什么馬斯克會(huì)“幸災(zāi)樂禍”？

魯豫對(duì)話鴻蒙開發(fā)者：把興趣寫進(jìn)系統(tǒng)里的年輕人

熱門推薦

OPPO Pad Air5上架開啟預(yù)售：售價(jià)1899元起

鏖戰(zhàn)2025年，大模型圍著開源轉(zhuǎn)

V觀財(cái)報(bào)｜通光線纜：未與SpaceX開展合作

“十四五”期間，我國(guó)5G用戶普及率從15%增至83.9%

舊金山一場(chǎng)停電，為什么馬斯克會(huì)“幸災(zāi)樂禍”？

魯豫對(duì)話鴻蒙開發(fā)者：把興趣寫進(jìn)系統(tǒng)里的年輕人

華碩終于發(fā)布RTX 5090D v2顯卡！OC版已正式上架：19999元

張一鳴押注、豆包加持！字節(jié)AR眼鏡外觀圖曝光

四大重磅舉措落地！徐匯AI+區(qū)塊鏈融合創(chuàng)新閃耀CCF中國(guó)區(qū)塊鏈技術(shù)大會(huì)

舊金山一場(chǎng)停電，為什么馬斯克會(huì)“幸災(zāi)樂禍”？ | 電廠

在AI面前，人類終于不說謊了

iPhone Fold依舊有折痕：蘋果沒有攻克這一行業(yè)難題

李想“揮淚”送張驍，新L7 L8明年要打硬仗

九識(shí)聯(lián)手菜鳥對(duì)戰(zhàn)新石器？無人配送再生變

昇思MindSpore引領(lǐng)AI框架邁入“超節(jié)點(diǎn)時(shí)代”