當(dāng)前位置：首頁 ? 資訊 ? 新科技 ? 正文

400萬人圍觀的分層推理模型，分層架構(gòu)不起作用？性能另有隱情？

IP屬地中國(guó)·北京 編輯：馮璃月機(jī)器之心Pro 時(shí)間：2025-08-18 20:23:28

摘自ARC PRIZE
作者：ARC PRIZE TEAM
機(jī)器之心編譯
還記得分層推理模型（Hierarchical Reasoning Model，HRM）嗎？
這項(xiàng)工作于 6 月份發(fā)布，當(dāng)時(shí)引起了不小的轟動(dòng)——X/Twitter 上的相關(guān)討論獲得了超過 400 萬的瀏覽量和數(shù)萬個(gè)點(diǎn)贊，剖析這項(xiàng)工作的 YouTube 視頻觀看量也超過了 47.5 萬次。

在論文中，作者表示：他們提出了一種受大腦啟發(fā)的 HRM 架構(gòu)，僅用 1000 個(gè)訓(xùn)練任務(wù)和一個(gè) 2700 萬參數(shù)（相對(duì)較小）的模型，就在 ARC-AGI-1 基準(zhǔn)上取得了 41% 的得分。
論文還指出，這一架構(gòu)有潛力成為邁向通用計(jì)算和通用推理系統(tǒng)的變革性進(jìn)展。
鑒于該方法的普及度和新穎性，來自 ARC PRIZE 團(tuán)隊(duì)的研究者著手在 ARC-AGI-1 半私有數(shù)據(jù)集（一個(gè)用于驗(yàn)證解決方案是否過擬合的隱藏保留任務(wù)集）上驗(yàn)證 HRM 的性能。
他們的發(fā)現(xiàn)有些出人意料。
首先：他們能夠近似復(fù)現(xiàn)論文中聲稱的數(shù)字。HRM 在 ARC-AGI 半私有集上的表現(xiàn)，就其模型大小而言，令人印象深刻：
ARC-AGI-1：32%——雖然不是 SOTA 水平，但對(duì)于如此小的模型來說，這已經(jīng)非常出色。
ARC-AGI-2：2%——盡管得分大于 0% 顯示出一些積極信號(hào)，但 ARC PRIZE 團(tuán)隊(duì)不認(rèn)為這在 ARC-AGI-2 上取得了實(shí)質(zhì)性進(jìn)展。
與此同時(shí)，通過運(yùn)行一系列消融分析，他們得到了一些令人驚訝的發(fā)現(xiàn)，這些發(fā)現(xiàn)對(duì)圍繞 HRM 的主流論述提出了質(zhì)疑：

與同等規(guī)模的 Transformer 相比，其「分層」架構(gòu)對(duì)性能的影響微乎其微。然而，論文中相對(duì)提及較少的「外循環(huán)」優(yōu)化過程，尤其是在訓(xùn)練期間，極大地提升了性能。跨任務(wù)遷移學(xué)習(xí)的益處有限；大部分性能來自于對(duì)評(píng)估時(shí)所用特定任務(wù)解決方案的記憶。預(yù)訓(xùn)練的任務(wù)增強(qiáng)至關(guān)重要，盡管只需 300 次增強(qiáng)就已足夠（而非論文中報(bào)告的 1000 次）。推理時(shí)的任務(wù)增強(qiáng)影響有限。
發(fā)現(xiàn) 2 和 3 表明，該論文的方法在根本上與 Liao 和 Gu 提出的「無預(yù)訓(xùn)練的 ARC-AGI」方法相似。
有人認(rèn)為，ARC PRIZE 團(tuán)隊(duì)的這些分析結(jié)果表明，HRM 是一個(gè)失敗的探索。

但更多人反駁說，與在同一基準(zhǔn)上表現(xiàn)類似的模型相比，HRM 要小得多。雖然分層架構(gòu)的作用沒有得到驗(yàn)證，但論文在其他方面的創(chuàng)新依然值得研究，畢竟模型的表現(xiàn)還是很好的。

針對(duì)這一分析，ARC PRIZE 團(tuán)隊(duì)專門寫了一篇博客來詳細(xì)介紹。以下是博客內(nèi)容。

博客地址：https://arcprize.org/blog/hrm-analysisGithub：https://github.com/arcprize/hierarchical-reasoning-model-analysis
「分層推理模型」回顧

圖 1：HRM 方法從大腦中不同頻率的信號(hào)處理中汲取靈感。
分層推理模型由新加坡 AI 研究實(shí)驗(yàn)室 Sapient 發(fā)表，據(jù)稱其靈感來源于人腦的分層和多時(shí)間尺度處理機(jī)制。
HRM 是一個(gè) 2700 萬參數(shù)的模型，它通過幾次簡(jiǎn)短的「思考」脈沖進(jìn)行迭代優(yōu)化。
每次脈沖產(chǎn)生：
一個(gè)預(yù)測(cè)輸出網(wǎng)格——這是模型對(duì) ARC-AGI 任務(wù)的「處理中」預(yù)測(cè)。一個(gè)「停止或繼續(xù)」得分——該得分決定是繼續(xù)優(yōu)化預(yù)測(cè)還是將其作為最終結(jié)果提交。
如果模型選擇繼續(xù)優(yōu)化，這個(gè)「處理中」的預(yù)測(cè)會(huì)再次經(jīng)過一個(gè)「思考」脈沖。這就是外循環(huán)：預(yù)測(cè)、詢問「我完成了嗎？」，然后停止或繼續(xù)優(yōu)化。
在外循環(huán)內(nèi)部，HRM 運(yùn)行兩個(gè)耦合的循環(huán)模塊：「H」（慢速規(guī)劃器）和「L」（快速執(zhí)行器）。這兩個(gè)模塊協(xié)同工作，共同更新一個(gè)共享隱藏狀態(tài)，而非各自產(chǎn)生獨(dú)立的輸出。其最終效果是模型在「規(guī)劃」（H）和「細(xì)節(jié)」（L）之間交替進(jìn)行，直到內(nèi)部狀態(tài)「自我達(dá)成一致」并產(chǎn)生答案。
該模型使用一個(gè)學(xué)習(xí)到的「停止」信號(hào)，這是一種自適應(yīng)計(jì)算機(jī)制，用于控制優(yōu)化的次數(shù)。
這個(gè)過程的一個(gè)關(guān)鍵部分是任務(wù)增強(qiáng)。這是一個(gè)對(duì)每個(gè)任務(wù)應(yīng)用變換（如對(duì)象旋轉(zhuǎn)、翻轉(zhuǎn)等）的過程，目的是挖掘出任務(wù)的潛在規(guī)則，而不是對(duì)特定的形狀或顏色產(chǎn)生過擬合。
在測(cè)試時(shí)，模型會(huì)運(yùn)行相同的增強(qiáng)來生成預(yù)測(cè)。這些預(yù)測(cè)隨后被「去增強(qiáng)」（以恢復(fù)到原始任務(wù)格式），然后通過簡(jiǎn)單的多數(shù)投票來決定最終的預(yù)測(cè)結(jié)果。
預(yù)測(cè)是通過轉(zhuǎn)導(dǎo)（深度學(xué)習(xí)的直接輸出）在嵌入空間中進(jìn)行的，而不是通過歸納（生成一個(gè)可應(yīng)用變換的程序）。關(guān)于 ARC-AGI 中轉(zhuǎn)導(dǎo)與歸納的更多信息，請(qǐng)參閱 2024 年 ARC Prize 獲獎(jiǎng)?wù)撐摹督Y(jié)合歸納與轉(zhuǎn)導(dǎo)進(jìn)行抽象推理》，作者為 Wen-Ding Li 等人。
ARC-AGI 驗(yàn)證流程
ARC-AGI 基準(zhǔn)有 3 個(gè)主要的數(shù)據(jù)集用于測(cè)試：
公開訓(xùn)練集- 用于介紹 ARC-AGI 數(shù)據(jù)格式的公開數(shù)據(jù)。研究人員在此數(shù)據(jù)上訓(xùn)練和迭代模型。公開評(píng)估集- 供研究人員在訓(xùn)練后自我評(píng)估模型性能的公開數(shù)據(jù)。半私有評(píng)估集- 一個(gè)保留數(shù)據(jù)集，用于驗(yàn)證在 ARC-AGI 上的聲明。該數(shù)據(jù)集無法在線獲取用于訓(xùn)練，從而增加了其提供模型性能純凈信號(hào)的可信度。它被稱為「半私有」，因?yàn)轵?yàn)證第三方服務(wù)（如來自 OpenAI、xAI 的模型）意味著我們無法保證數(shù)據(jù)永遠(yuǎn)完全保密，并且計(jì)劃最終會(huì)替換它。
除了這些數(shù)據(jù)集類型，ARC-AGI 目前有 2 個(gè)已發(fā)布的版本：
ARC-AGI-1——2019 年，旨在挑戰(zhàn)深度學(xué)習(xí)系統(tǒng)。ARC-AGI-2——2025 年，旨在挑戰(zhàn)推理系統(tǒng)。
我們根據(jù)測(cè)試政策，對(duì)像 HRM 這樣的特定定制解決方案進(jìn)行測(cè)試。要獲得驗(yàn)證資格，解決方案必須開源，運(yùn)行成本低于 1 萬美元，并在 12 小時(shí)內(nèi)完成。
官方驗(yàn)證的 HRM ARC-AGI 得分

圖 2：ARC-AGI-1 排行榜，HRM 性能與每項(xiàng)任務(wù)成本。
ARC-AGI-1（100 個(gè)任務(wù)）
得分：32%，運(yùn)行時(shí)間：9 小時(shí) 16 分鐘，總成本：$148.50（$1.48 / 任務(wù)）
在 ARC-AGI-1 上獲得 32% 的得分，對(duì)于如此小的模型來說是令人印象深刻的。從 HRM 聲稱的公開評(píng)估集得分（41%）下降到半私有集得分，這種輕微的下降是預(yù)料之中的。ARC-AGI-1 的公開集和半私有集并未進(jìn)行難度校準(zhǔn)。觀察到的 9 個(gè)百分點(diǎn)的下降幅度處于正常波動(dòng)的偏高范圍。如果模型對(duì)公開集過擬合，其在半私有集上的性能可能會(huì)崩潰（例如，降至 10% 或更低）。但我們并未觀察到這種情況。這個(gè)結(jié)果表明，HRM 確實(shí)有一些值得關(guān)注的亮點(diǎn)。
注意：運(yùn)行 HRM 的成本相對(duì)較高，是因?yàn)橛?xùn)練和推理被耦合在單次運(yùn)行中。論文作者提到他們正在努力解耦這個(gè)過程，以便將其解決方案提交給 ARC Prize 2025 Kaggle 競(jìng)賽。
ARC-AGI-2（120 個(gè)任務(wù)）
得分運(yùn)行時(shí)間：12 小時(shí) 35 分鐘，總成本：$201（$1.68 / 任務(wù)）
ARC-AGI-2 明顯比 ARC-AGI-1 更難，因此性能大幅下降是預(yù)料之中的。與 ARC-AGI-1 不同，ARC-AGI-2 的公開集和半私有集是經(jīng)過難度校準(zhǔn)的。原則上，兩者上的得分應(yīng)該相似。盡管大于 0% 的得分顯示出模型的某些能力，但我們不認(rèn)為 2% 的得分是在 ARC-AGI-2 上取得的有意義的進(jìn)展。
注意：我們選擇包含 10 個(gè)可選的檢查點(diǎn)（每個(gè)約 5 分鐘），總共增加了約 50 分鐘。雖然 HRM 的提交超出了 12 小時(shí)的運(yùn)行限制，我們?nèi)匀徽J(rèn)為它是有效的。
分析 HRM 對(duì) ARC 得分的貢獻(xiàn)
在更深入的分析中，我們最想回答的問題是：「HRM 架構(gòu)中對(duì) ARC-AGI 的成功貢獻(xiàn)最大的關(guān)鍵組件是什么？」
我們仔細(xì)研究了 HRM 論文的 4 個(gè)主要組成部分：HRM 模型架構(gòu)、H-L 分層計(jì)算、外層優(yōu)化循環(huán)，以及數(shù)據(jù)增強(qiáng)的使用。Ndea 研究員 Konstantin Schürholt 主導(dǎo)了這項(xiàng)分析。
我們測(cè)試了：
「分層」H 和 L 循環(huán)的性能貢獻(xiàn)
相比于基礎(chǔ)的 Transformer，HRM 提供了多少性能提升？
改變分層計(jì)算的參數(shù)有何影響？
改變最大「停止或繼續(xù)」循環(huán)次數(shù)
自適應(yīng)計(jì)算時(shí)間（ACT）評(píng)分器與固定循環(huán)次數(shù)（沒有停止決策）相比表現(xiàn)如何？
跨任務(wù)遷移學(xué)習(xí)的影響
與僅在評(píng)估任務(wù)上訓(xùn)練相比，在訓(xùn)練時(shí)加入訓(xùn)練集任務(wù)和 ConceptARC 任務(wù)有何影響？
增強(qiáng)數(shù)量
改變從每個(gè)任務(wù)創(chuàng)建的增強(qiáng)數(shù)量。
模型/訓(xùn)練的變體（大小和時(shí)長(zhǎng)）
發(fā)現(xiàn) 1：
與同等規(guī)模的 Transformer 相比，
「分層」架構(gòu)對(duì)性能的影響微乎其微
論文提出，HRM 架構(gòu)是實(shí)現(xiàn)分層推理的關(guān)鍵——結(jié)合了慢節(jié)奏的指導(dǎo)（H-level）和快節(jié)奏的思考（L-level）。
為了理解該架構(gòu)的影響，我們進(jìn)行了 2 個(gè)實(shí)驗(yàn)：
改變分層組件中的迭代次數(shù)。將 HRM 模型替換為類似規(guī)模的 Transformer。
為便于比較，該 Transformer 擁有與 HRM 模型相同的參數(shù)數(shù)量（約 2700 萬）。在所有實(shí)驗(yàn)中，我們保持 HRM 流程的其他所有組件不變。
將 HRM 與常規(guī) Transformer 進(jìn)行比較，得到了兩個(gè)有趣的結(jié)果，見圖 3。首先，一個(gè)常規(guī)的 Transformer 在沒有任何超參數(shù)優(yōu)化的情況下，性能與 HRM 模型相差約 5 個(gè)百分點(diǎn)。當(dāng)只有一個(gè)外循環(huán)時(shí)，差距最小，此時(shí)兩個(gè)模型的性能不相上下。

圖 3：HRM 模型和相同尺寸的 Transformer 在不同外循環(huán)步數(shù)下的 pass@2 性能。Transformer 在沒有任何超參數(shù)優(yōu)化的情況下，性能與 HRM 相差幾個(gè)百分點(diǎn)。
當(dāng)外循環(huán)次數(shù)多于 1 次時(shí)，HRM 表現(xiàn)更好，但隨著外循環(huán)次數(shù)的增加，差距會(huì)縮小。請(qǐng)注意，盡管參數(shù)數(shù)量匹配，HRM 使用了更多的計(jì)算資源，這可能部分解釋了性能差異。增加計(jì)算資源帶來的好處可能會(huì)隨著外循環(huán)次數(shù)的增多而出現(xiàn)收益遞減，這與我們的結(jié)果相符。
我們進(jìn)一步改變了 H-level 和 L-level 的步數(shù)來分析其影響。我們發(fā)現(xiàn)，增加或減少迭代次數(shù)（基線為 L = 2, H = 2）都會(huì)導(dǎo)致性能下降。
這些結(jié)果表明，在 ARC-AGI 上的性能并非 HRM 架構(gòu)本身帶來的。雖然它確實(shí)提供了一點(diǎn)好處，但在 HRM 訓(xùn)練流程中換用一個(gè)基線 Transformer 也能達(dá)到相當(dāng)?shù)男阅堋?/p>
發(fā)現(xiàn) 2：
論文中提及較少的「外循環(huán)」優(yōu)化過程
帶來了顯著的性能提升
除了分層架構(gòu)，HRM 論文還提出在模型外部使用一個(gè)外循環(huán)（「循環(huán)連接」）。這將模型的輸出反饋給自己，允許模型迭代地優(yōu)化其預(yù)測(cè)。
此外，它使用「自適應(yīng)計(jì)算時(shí)間」（ACT）來控制在特定任務(wù)上花費(fèi)的迭代次數(shù)。ACT 決定是停止預(yù)測(cè)還是繼續(xù)優(yōu)化。
HRM 方法的這一部分類似于 Universal Transformer，后者既有圍繞 Transformer 模型的循環(huán)優(yōu)化循環(huán)，也有一個(gè) ACT 的版本。
在我們的第二組實(shí)驗(yàn)中，我們想了解外層優(yōu)化循環(huán)以及 ACT 對(duì)整體性能的影響。我們改變了訓(xùn)練期間的最大外循環(huán)次數(shù)，并在推理時(shí)使用最大循環(huán)次數(shù)（遵循 HRM 的實(shí)現(xiàn)）。

圖 4：在不同數(shù)量的訓(xùn)練和推理優(yōu)化循環(huán)下的 pass@2 性能。通過迭代優(yōu)化數(shù)據(jù)會(huì)產(chǎn)生強(qiáng)大的影響，正如從 1 次循環(huán)（無優(yōu)化）到 2 次循環(huán)（1 次優(yōu)化）的性能飛躍所示。
如圖 4 所示，外循環(huán)的次數(shù)對(duì)模型性能有顯著影響——從無優(yōu)化（1 次循環(huán)）到僅 1 次優(yōu)化，性能躍升了 13 個(gè)百分點(diǎn)。從 1 次優(yōu)化循環(huán)增加到 8 次，公開評(píng)估集上的性能翻了一番。
一個(gè)次要發(fā)現(xiàn)是，在訓(xùn)練期間使用 ACT 確實(shí)能減少每個(gè)任務(wù)的實(shí)際優(yōu)化步數(shù)。然而，雖然使用 ACT 能提高性能，但與固定的 16 次循環(huán)運(yùn)行相比，差異僅在幾個(gè)百分點(diǎn)之內(nèi)。
結(jié)果表明，優(yōu)化外循環(huán)是 HRM 性能的關(guān)鍵驅(qū)動(dòng)力。
為了理解訓(xùn)練時(shí)優(yōu)化與推理時(shí)優(yōu)化的影響，我們進(jìn)一步獨(dú)立地改變了推理優(yōu)化循環(huán)的次數(shù)。

圖 5：在不同數(shù)量的推理優(yōu)化循環(huán)下的 pass@2 性能。藍(lán)色條表示使用相同循環(huán)次數(shù)進(jìn)行訓(xùn)練和推理的模型。橙色條表示使用 16 個(gè)優(yōu)化循環(huán)訓(xùn)練，但在推理時(shí)使用不同循環(huán)次數(shù)的模型。例如，1-Loop 處的藍(lán)色條表示用一個(gè)優(yōu)化步驟訓(xùn)練并用一個(gè)優(yōu)化步驟推理的模型。橙色條表示用 16 個(gè)優(yōu)化步驟訓(xùn)練但僅用一個(gè)優(yōu)化步驟推理的模型。
為此，我們比較了兩種設(shè)置。第一種，我們?cè)谟?xùn)練和推理中使用相同數(shù)量的優(yōu)化循環(huán)。第二種，我們用最多 16 個(gè)優(yōu)化循環(huán)步驟訓(xùn)練一個(gè)模型，并分別用 1、4、8 和 16 個(gè)優(yōu)化步驟來評(píng)估它。
比較這兩類模型顯示出實(shí)質(zhì)性差異，尤其是在低推理優(yōu)化步數(shù)（1 和 4）時(shí)，見圖 5。用更多的優(yōu)化步驟進(jìn)行訓(xùn)練，可以將單次優(yōu)化循環(huán)預(yù)測(cè)的性能提高超過 15 個(gè)百分點(diǎn)，盡管一次循環(huán)意味著沒有任何優(yōu)化的單次前向傳播。在推理時(shí)增加更多的優(yōu)化循環(huán)，影響則沒有那么大。這表明，帶優(yōu)化的訓(xùn)練比在推理時(shí)使用優(yōu)化更重要。
發(fā)現(xiàn) 3：
跨任務(wù)遷移學(xué)習(xí)的影響有限
在原始論文中，HRM 在 960 個(gè)任務(wù)的演示對(duì)的增強(qiáng)版本上進(jìn)行訓(xùn)練：
來自 ARC-AGI-1 訓(xùn)練集的 400 個(gè)任務(wù)。來自密切相關(guān)的 ConceptARC 基準(zhǔn)的 160 個(gè)任務(wù)。來自 ARC-AGI-1 評(píng)估集的 400 個(gè)任務(wù)，這些任務(wù)也是評(píng)估時(shí)要解決的目標(biāo)。
需要注意的是，這并不意味著數(shù)據(jù)泄露，因?yàn)槟Ｐ驮谟?xùn)練時(shí)從未看到評(píng)估任務(wù)的測(cè)試對(duì)——而這正是模型被評(píng)估的內(nèi)容。
我們想了解跨任務(wù)遷移學(xué)習(xí)與推斷并記憶評(píng)估時(shí)特定任務(wù)的解決方案相比，其影響如何。我們進(jìn)行了以下實(shí)驗(yàn)：我們只在 400 個(gè)評(píng)估任務(wù)上進(jìn)行訓(xùn)練——去掉了來自訓(xùn)練集的 400 個(gè)任務(wù)和來自 ConceptARC 數(shù)據(jù)集的 160 個(gè)任務(wù)。
在這種設(shè)置下，模型達(dá)到了 31% 的 pass@2 準(zhǔn)確率，與最初的 41% 相比僅有小幅下降。這表明，絕大部分性能是由在評(píng)估時(shí)見過的任務(wù)上進(jìn)行訓(xùn)練所驅(qū)動(dòng)的。這意味著 HRM 的做法本質(zhì)上是一種零預(yù)訓(xùn)練的測(cè)試時(shí)訓(xùn)練方法，類似于 Liao 和 Gu 的「無預(yù)訓(xùn)練的 ARC-AGI」。這相當(dāng)于將模型用作一種程序合成基底——在任務(wù)的演示對(duì)上使用梯度下降，將執(zhí)行該任務(wù)的程序編碼到模型的權(quán)重中。
值得注意的是，在我們的實(shí)驗(yàn)中，仍然存在一定程度的跨任務(wù)遷移學(xué)習(xí)——在評(píng)估集的不同任務(wù)之間。我們實(shí)驗(yàn)的一個(gè)更強(qiáng)的版本是，在每個(gè)評(píng)估任務(wù)上單獨(dú)運(yùn)行 HRM 流程，這樣模型在訓(xùn)練時(shí)只會(huì)看到它將被評(píng)估的那一個(gè)任務(wù)的演示對(duì)的增強(qiáng)版本。這將使 HRM 的設(shè)置與 Liao 和 Gu 的設(shè)置完全一致。我們沒有時(shí)間運(yùn)行這個(gè)實(shí)驗(yàn)，但我們推測(cè)結(jié)果將與 Liao 和 Gu 的（21% pass@2）非常接近。
發(fā)現(xiàn) 4：
預(yù)訓(xùn)練的任務(wù)增強(qiáng)至關(guān)重要
我們研究的 HRM 流程中另一個(gè)重要組成部分是任務(wù)增強(qiáng)。
數(shù)據(jù)增強(qiáng)是深度學(xué)習(xí)中一種常用方法，用于增加數(shù)據(jù)集中的樣本數(shù)量并提高模型的泛化能力。這意味著對(duì)任務(wù)應(yīng)用旋轉(zhuǎn)、翻轉(zhuǎn)或顏色交換，從而在不改變?nèi)蝿?wù)基本概念的情況下生成新數(shù)據(jù)。
HRM 對(duì)任務(wù)的所有增強(qiáng)版本進(jìn)行預(yù)測(cè)，然后將增強(qiáng)后的預(yù)測(cè)還原（或「去增強(qiáng)」），使其恢復(fù)到原始任務(wù)格式。然后，模型對(duì)這些預(yù)測(cè)進(jìn)行多數(shù)投票以選出最終候選。
我們測(cè)試了對(duì)基線 HRM 的以下修改：
編譯數(shù)據(jù)集時(shí)最大增強(qiáng)的數(shù)量。用于多數(shù)投票的最大預(yù)測(cè)數(shù)量。
因?yàn)?HRM 只能處理訓(xùn)練期間遇到過的增強(qiáng)類型，所以我們?cè)谕评頃r(shí)對(duì)第 2 點(diǎn)的改變僅限于減少增強(qiáng)數(shù)量，而不能增加。
圖 7 中的結(jié)果顯示了兩個(gè)趨勢(shì)。首先，使用數(shù)據(jù)增強(qiáng)確實(shí)能顯著提高性能。然而，僅使用 300 次增強(qiáng)，而不是論文中使用的 1000 次，就已接近最大性能。僅使用 30 次增強(qiáng)（論文中總數(shù)的 3%）的性能與最大性能相差不到 4%。
其次，在訓(xùn)練期間使用數(shù)據(jù)增強(qiáng)似乎比為多數(shù)投票獲得更大的池子更重要。用更多增強(qiáng)訓(xùn)練的模型，在用較小池子進(jìn)行推理時(shí)，性能下降得要少得多。
其他技術(shù)性學(xué)習(xí)
深入研究 HRM 的內(nèi)部機(jī)制還帶來了一些其他有趣的發(fā)現(xiàn)。
首先也是最重要的一點(diǎn)，HRM 將 ARC-AGI 任務(wù)分解為單個(gè)的輸入-輸出對(duì)，他們稱之為謎題（puzzles）。每個(gè)謎題會(huì)獲得一個(gè) puzzle_id，它由任務(wù)哈希值和應(yīng)用于此特定謎題的增強(qiáng)代碼組成。
在訓(xùn)練和推理時(shí)，模型只接收輸入和 puzzle_id——沒有包含任務(wù)其他輸入-輸出示例的少樣本上下文。HRM 模型必須學(xué)會(huì)將一個(gè) puzzle_id 與一個(gè)特定的轉(zhuǎn)換關(guān)聯(lián)起來，以便它能從輸入預(yù)測(cè)輸出。
為此，它將 puzzle_id 輸入一個(gè)大的嵌入層。這個(gè)嵌入層是關(guān)鍵——沒有它，模型就不知道如何處理輸入。這帶來了一個(gè)主要限制：該模型只能應(yīng)用于它在訓(xùn)練時(shí)見過的 puzzle_id。
在與作者就此話題的交流中，他們解釋說，為少樣本上下文更改謎題嵌入是一個(gè)復(fù)雜的工程挑戰(zhàn)。在早期版本中，他們做過比較，發(fā)現(xiàn)在更大的類 ARC 數(shù)據(jù)集上，少樣本上下文效果很好，但在樣本受限的 ARC 上，謎題嵌入的表現(xiàn)明顯更好。我們沒有復(fù)現(xiàn)這些實(shí)驗(yàn)，但這為未來的工作指明了有趣的方向。
出于同樣的原因，在這個(gè)版本的 HRM 中，推理數(shù)據(jù)必須是訓(xùn)練數(shù)據(jù)集的一部分。例如，獨(dú)立地改變?cè)鰪?qiáng)數(shù)量并不是一件直接的事情。
最后，雖然優(yōu)化循環(huán)對(duì)性能有明顯影響，但 HRM 是純粹轉(zhuǎn)導(dǎo)性的。雖然可以展開優(yōu)化步驟，但底層的程序仍然是隱式的。我們的假設(shè)是，這種方法不具備泛化能力。
待解決的問題與未來工作
我們對(duì) HRM 的實(shí)驗(yàn)為我們揭示了其在 ARC-AGI 上表現(xiàn)出色的原因，但其他問題依然存在。除了上面提到的，我們還邀請(qǐng)社區(qū)探索以下更多問題：
puzzle_id 嵌入對(duì)模型性能有多大影響？與將任務(wù)中的其余示例作為上下文提供相比如何？
HRM 在其訓(xùn)練數(shù)據(jù)之外的泛化能力如何？是否有任何方法可以在新數(shù)據(jù)上微調(diào) HRM？
在推理時(shí)，學(xué)習(xí)到的停止機(jī)制有何影響？其好處僅限于節(jié)省計(jì)算資源，還是也能提高性能？
優(yōu)化的思想是否能推廣到其他方法，例如合成顯式程序的歸納方法？
通過在每個(gè)評(píng)估任務(wù)上單獨(dú)進(jìn)行訓(xùn)練和評(píng)估，可以達(dá)到什么樣的性能？（消除所有跨任務(wù)遷移學(xué)習(xí)。）
哪些特定的增強(qiáng)類型能帶來更高的性能？旋轉(zhuǎn)？顏色交換？為什么？
結(jié)語
來自 ARC Prize 的分析非常詳盡，不少人感嘆說，這才是真正的「同行評(píng)審」。

還有人說，這個(gè)分析本身和論文一樣重要。如果大家以后能夠更多地用這種方式去分析一些備受關(guān)注的研究，相信社區(qū)可以更加高效地獲取一些新知識(shí)。

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

觀察|全固態(tài)電池商業(yè)化時(shí)間表成爭(zhēng)議焦點(diǎn)，高成本或阻礙推廣

IDC：印度手機(jī)市場(chǎng)Q3創(chuàng)五年新高，vivo、OPPO、三星位列前三

在全球最大的科技峰會(huì)現(xiàn)場(chǎng)，他們用DeepSeek養(yǎng)出迷你“獨(dú)角獸”

千問APP發(fā)布日遭美方“指控”，背后是中美AI的無聲戰(zhàn)爭(zhēng)

明年沖擊100萬臺(tái)！零跑汽車2025年銷量目標(biāo)已達(dá)成

iPhone Air開啟eSIM時(shí)代：國(guó)內(nèi)廠商紛紛跟進(jìn)

全站最新

觀察|全固態(tài)電池商業(yè)化時(shí)間表成爭(zhēng)議焦點(diǎn)，高成本或阻礙推廣

IDC：印度手機(jī)市場(chǎng)Q3創(chuàng)五年新高，vivo、OPPO、三星位列前三

在全球最大的科技峰會(huì)現(xiàn)場(chǎng)，他們用DeepSeek養(yǎng)出迷你“獨(dú)角獸”

千問APP發(fā)布日遭美方“指控”，背后是中美AI的無聲戰(zhàn)爭(zhēng)

熱門推薦

創(chuàng)新是走出低谷、完成突破的動(dòng)力（親歷者說）

線下線上齊發(fā)力，渝貨出山有實(shí)招

觀察|全固態(tài)電池商業(yè)化時(shí)間表成爭(zhēng)議焦點(diǎn)，高成本或阻礙推廣

IDC：印度手機(jī)市場(chǎng)Q3創(chuàng)五年新高，vivo、OPPO、三星位列前三

2025世界城市文化大會(huì) 聚焦AI時(shí)代城市文化

在全球最大的科技峰會(huì)現(xiàn)場(chǎng)，他們用DeepSeek養(yǎng)出迷你“獨(dú)角獸”

潤(rùn)和軟件與中國(guó)科學(xué)院廣州生物醫(yī)藥與健康研究院達(dá)成戰(zhàn)略合作

千問APP發(fā)布日遭美方“指控”，背后是中美AI的無聲戰(zhàn)爭(zhēng)

明年沖擊100萬臺(tái)！零跑汽車2025年銷量目標(biāo)已達(dá)成

iPhone Air開啟eSIM時(shí)代：國(guó)內(nèi)廠商紛紛跟進(jìn)

劍指蘋果A20 高通驍龍8 Elite Gen6明年見：雙版本齊發(fā)

全球首發(fā)出圈實(shí)況拼圖！OPPO Reno15系列下周登場(chǎng)

全能搭子文心5.0，百度用原生全模態(tài)宣告回歸

中芯國(guó)際CEO：存儲(chǔ)漲價(jià)對(duì)邏輯代工有兩大致命影響

ADM、浪潮云和神州數(shù)碼成為開源歐拉社區(qū)新捐贈(zèng)單位