亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當(dāng)前位置: 首頁 ? 資訊 ? 新科技 ? 正文

400萬人圍觀的分層推理模型,分層架構(gòu)不起作用?性能另有隱情?

IP屬地 中國(guó)·北京 編輯:馮璃月 機(jī)器之心Pro 時(shí)間:2025-08-18 20:23:28



摘自ARC PRIZE

作者:ARC PRIZE TEAM

機(jī)器之心編譯

還記得分層推理模型(Hierarchical Reasoning Model,HRM)嗎?

這項(xiàng)工作于 6 月份發(fā)布,當(dāng)時(shí)引起了不小的轟動(dòng)——X/Twitter 上的相關(guān)討論獲得了超過 400 萬的瀏覽量和數(shù)萬個(gè)點(diǎn)贊,剖析這項(xiàng)工作的 YouTube 視頻觀看量也超過了 47.5 萬次。



在論文中,作者表示:他們提出了一種受大腦啟發(fā)的 HRM 架構(gòu),僅用 1000 個(gè)訓(xùn)練任務(wù)和一個(gè) 2700 萬參數(shù)(相對(duì)較小)的模型,就在 ARC-AGI-1 基準(zhǔn)上取得了 41% 的得分。

論文還指出,這一架構(gòu)有潛力成為邁向通用計(jì)算和通用推理系統(tǒng)的變革性進(jìn)展。

鑒于該方法的普及度和新穎性,來自 ARC PRIZE 團(tuán)隊(duì)的研究者著手在 ARC-AGI-1 半私有數(shù)據(jù)集(一個(gè)用于驗(yàn)證解決方案是否過擬合的隱藏保留任務(wù)集)上驗(yàn)證 HRM 的性能。

他們的發(fā)現(xiàn)有些出人意料。

首先:他們能夠近似復(fù)現(xiàn)論文中聲稱的數(shù)字。HRM 在 ARC-AGI 半私有集上的表現(xiàn),就其模型大小而言,令人印象深刻:

ARC-AGI-1:32%——雖然不是 SOTA 水平,但對(duì)于如此小的模型來說,這已經(jīng)非常出色。

ARC-AGI-2:2%——盡管得分大于 0% 顯示出一些積極信號(hào),但 ARC PRIZE 團(tuán)隊(duì)不認(rèn)為這在 ARC-AGI-2 上取得了實(shí)質(zhì)性進(jìn)展。

與此同時(shí),通過運(yùn)行一系列消融分析,他們得到了一些令人驚訝的發(fā)現(xiàn),這些發(fā)現(xiàn)對(duì)圍繞 HRM 的主流論述提出了質(zhì)疑:



與同等規(guī)模的 Transformer 相比,其「分層」架構(gòu)對(duì)性能的影響微乎其微。然而,論文中相對(duì)提及較少的「外循環(huán)」優(yōu)化過程,尤其是在訓(xùn)練期間,極大地提升了性能。跨任務(wù)遷移學(xué)習(xí)的益處有限;大部分性能來自于對(duì)評(píng)估時(shí)所用特定任務(wù)解決方案的記憶。預(yù)訓(xùn)練的任務(wù)增強(qiáng)至關(guān)重要,盡管只需 300 次增強(qiáng)就已足夠(而非論文中報(bào)告的 1000 次)。推理時(shí)的任務(wù)增強(qiáng)影響有限。

發(fā)現(xiàn) 2 和 3 表明,該論文的方法在根本上與 Liao 和 Gu 提出的「無預(yù)訓(xùn)練的 ARC-AGI」方法相似。

有人認(rèn)為,ARC PRIZE 團(tuán)隊(duì)的這些分析結(jié)果表明,HRM 是一個(gè)失敗的探索。



但更多人反駁說,與在同一基準(zhǔn)上表現(xiàn)類似的模型相比,HRM 要小得多。雖然分層架構(gòu)的作用沒有得到驗(yàn)證,但論文在其他方面的創(chuàng)新依然值得研究,畢竟模型的表現(xiàn)還是很好的。





針對(duì)這一分析,ARC PRIZE 團(tuán)隊(duì)專門寫了一篇博客來詳細(xì)介紹。以下是博客內(nèi)容。



博客地址:https://arcprize.org/blog/hrm-analysisGithub:https://github.com/arcprize/hierarchical-reasoning-model-analysis

「分層推理模型」回顧



圖 1:HRM 方法從大腦中不同頻率的信號(hào)處理中汲取靈感。

分層推理模型由新加坡 AI 研究實(shí)驗(yàn)室 Sapient 發(fā)表,據(jù)稱其靈感來源于人腦的分層和多時(shí)間尺度處理機(jī)制。

HRM 是一個(gè) 2700 萬參數(shù)的模型,它通過幾次簡(jiǎn)短的「思考」脈沖進(jìn)行迭代優(yōu)化

每次脈沖產(chǎn)生:

一個(gè)預(yù)測(cè)輸出網(wǎng)格——這是模型對(duì) ARC-AGI 任務(wù)的「處理中」預(yù)測(cè)。一個(gè)「停止或繼續(xù)」得分——該得分決定是繼續(xù)優(yōu)化預(yù)測(cè)還是將其作為最終結(jié)果提交。

如果模型選擇繼續(xù)優(yōu)化,這個(gè)「處理中」的預(yù)測(cè)會(huì)再次經(jīng)過一個(gè)「思考」脈沖。這就是外循環(huán):預(yù)測(cè)、詢問「我完成了嗎?」,然后停止或繼續(xù)優(yōu)化。

在外循環(huán)內(nèi)部,HRM 運(yùn)行兩個(gè)耦合的循環(huán)模塊:「H」(慢速規(guī)劃器)和「L」(快速執(zhí)行器)。這兩個(gè)模塊協(xié)同工作,共同更新一個(gè)共享隱藏狀態(tài),而非各自產(chǎn)生獨(dú)立的輸出。其最終效果是模型在「規(guī)劃」(H)和「細(xì)節(jié)」(L)之間交替進(jìn)行,直到內(nèi)部狀態(tài)「自我達(dá)成一致」并產(chǎn)生答案。

該模型使用一個(gè)學(xué)習(xí)到的「停止」信號(hào),這是一種自適應(yīng)計(jì)算機(jī)制,用于控制優(yōu)化的次數(shù)。

這個(gè)過程的一個(gè)關(guān)鍵部分是任務(wù)增強(qiáng)。這是一個(gè)對(duì)每個(gè)任務(wù)應(yīng)用變換(如對(duì)象旋轉(zhuǎn)、翻轉(zhuǎn)等)的過程,目的是挖掘出任務(wù)的潛在規(guī)則,而不是對(duì)特定的形狀或顏色產(chǎn)生過擬合

在測(cè)試時(shí),模型會(huì)運(yùn)行相同的增強(qiáng)來生成預(yù)測(cè)。這些預(yù)測(cè)隨后被「去增強(qiáng)」(以恢復(fù)到原始任務(wù)格式),然后通過簡(jiǎn)單的多數(shù)投票來決定最終的預(yù)測(cè)結(jié)果。

預(yù)測(cè)是通過轉(zhuǎn)導(dǎo)(深度學(xué)習(xí)的直接輸出)在嵌入空間中進(jìn)行的,而不是通過歸納(生成一個(gè)可應(yīng)用變換的程序)。關(guān)于 ARC-AGI 中轉(zhuǎn)導(dǎo)與歸納的更多信息,請(qǐng)參閱 2024 年 ARC Prize 獲獎(jiǎng)?wù)撐摹督Y(jié)合歸納與轉(zhuǎn)導(dǎo)進(jìn)行抽象推理》,作者為 Wen-Ding Li 等人。

ARC-AGI 驗(yàn)證流程

ARC-AGI 基準(zhǔn)有 3 個(gè)主要的數(shù)據(jù)集用于測(cè)試:

公開訓(xùn)練集- 用于介紹 ARC-AGI 數(shù)據(jù)格式的公開數(shù)據(jù)。研究人員在此數(shù)據(jù)上訓(xùn)練和迭代模型。公開評(píng)估集- 供研究人員在訓(xùn)練后自我評(píng)估模型性能的公開數(shù)據(jù)。半私有評(píng)估集- 一個(gè)保留數(shù)據(jù)集,用于驗(yàn)證在 ARC-AGI 上的聲明。該數(shù)據(jù)集無法在線獲取用于訓(xùn)練,從而增加了其提供模型性能純凈信號(hào)的可信度。它被稱為「半私有」,因?yàn)轵?yàn)證第三方服務(wù)(如來自 OpenAI、xAI 的模型)意味著我們無法保證數(shù)據(jù)永遠(yuǎn)完全保密,并且計(jì)劃最終會(huì)替換它。

除了這些數(shù)據(jù)集類型,ARC-AGI 目前有 2 個(gè)已發(fā)布的版本:

ARC-AGI-1——2019 年,旨在挑戰(zhàn)深度學(xué)習(xí)系統(tǒng)。ARC-AGI-2——2025 年,旨在挑戰(zhàn)推理系統(tǒng)。

我們根據(jù)測(cè)試政策,對(duì)像 HRM 這樣的特定定制解決方案進(jìn)行測(cè)試。要獲得驗(yàn)證資格,解決方案必須開源,運(yùn)行成本低于 1 萬美元,并在 12 小時(shí)內(nèi)完成。

官方驗(yàn)證的 HRM ARC-AGI 得分



圖 2:ARC-AGI-1 排行榜,HRM 性能與每項(xiàng)任務(wù)成本。

ARC-AGI-1(100 個(gè)任務(wù))

得分:32%,運(yùn)行時(shí)間:9 小時(shí) 16 分鐘,總成本:$148.50($1.48 / 任務(wù))

在 ARC-AGI-1 上獲得 32% 的得分,對(duì)于如此小的模型來說是令人印象深刻的。從 HRM 聲稱的公開評(píng)估集得分(41%)下降到半私有集得分,這種輕微的下降是預(yù)料之中的。ARC-AGI-1 的公開集和半私有集并未進(jìn)行難度校準(zhǔn)。觀察到的 9 個(gè)百分點(diǎn)的下降幅度處于正常波動(dòng)的偏高范圍。如果模型對(duì)公開集過擬合,其在半私有集上的性能可能會(huì)崩潰(例如,降至 10% 或更低)。但我們并未觀察到這種情況。這個(gè)結(jié)果表明,HRM 確實(shí)有一些值得關(guān)注的亮點(diǎn)。

注意:運(yùn)行 HRM 的成本相對(duì)較高,是因?yàn)橛?xùn)練和推理被耦合在單次運(yùn)行中。論文作者提到他們正在努力解耦這個(gè)過程,以便將其解決方案提交給 ARC Prize 2025 Kaggle 競(jìng)賽。

ARC-AGI-2(120 個(gè)任務(wù))

得分運(yùn)行時(shí)間:12 小時(shí) 35 分鐘,總成本:$201($1.68 / 任務(wù))

ARC-AGI-2 明顯比 ARC-AGI-1 更難,因此性能大幅下降是預(yù)料之中的。與 ARC-AGI-1 不同,ARC-AGI-2 的公開集和半私有集是經(jīng)過難度校準(zhǔn)的。原則上,兩者上的得分應(yīng)該相似。盡管大于 0% 的得分顯示出模型的某些能力,但我們不認(rèn)為 2% 的得分是在 ARC-AGI-2 上取得的有意義的進(jìn)展。

注意:我們選擇包含 10 個(gè)可選的檢查點(diǎn)(每個(gè)約 5 分鐘),總共增加了約 50 分鐘。雖然 HRM 的提交超出了 12 小時(shí)的運(yùn)行限制,我們?nèi)匀徽J(rèn)為它是有效的。

分析 HRM 對(duì) ARC 得分的貢獻(xiàn)

在更深入的分析中,我們最想回答的問題是:「HRM 架構(gòu)中對(duì) ARC-AGI 的成功貢獻(xiàn)最大的關(guān)鍵組件是什么?

我們仔細(xì)研究了 HRM 論文的 4 個(gè)主要組成部分:HRM 模型架構(gòu)、H-L 分層計(jì)算、外層優(yōu)化循環(huán),以及數(shù)據(jù)增強(qiáng)的使用。Ndea 研究員 Konstantin Schürholt 主導(dǎo)了這項(xiàng)分析。

我們測(cè)試了:

「分層」H 和 L 循環(huán)的性能貢獻(xiàn)

相比于基礎(chǔ)的 Transformer,HRM 提供了多少性能提升?

改變分層計(jì)算的參數(shù)有何影響?

改變最大「停止或繼續(xù)」循環(huán)次數(shù)

自適應(yīng)計(jì)算時(shí)間(ACT)評(píng)分器與固定循環(huán)次數(shù)(沒有停止決策)相比表現(xiàn)如何?

跨任務(wù)遷移學(xué)習(xí)的影響

與僅在評(píng)估任務(wù)上訓(xùn)練相比,在訓(xùn)練時(shí)加入訓(xùn)練集任務(wù)和 ConceptARC 任務(wù)有何影響?

增強(qiáng)數(shù)量

改變從每個(gè)任務(wù)創(chuàng)建的增強(qiáng)數(shù)量。

模型/訓(xùn)練的變體(大小和時(shí)長(zhǎng))

發(fā)現(xiàn) 1:

與同等規(guī)模的 Transformer 相比,

「分層」架構(gòu)對(duì)性能的影響微乎其微

論文提出,HRM 架構(gòu)是實(shí)現(xiàn)分層推理的關(guān)鍵——結(jié)合了慢節(jié)奏的指導(dǎo)(H-level)和快節(jié)奏的思考(L-level)。

為了理解該架構(gòu)的影響,我們進(jìn)行了 2 個(gè)實(shí)驗(yàn):

改變分層組件中的迭代次數(shù)。將 HRM 模型替換為類似規(guī)模的 Transformer。

為便于比較,該 Transformer 擁有與 HRM 模型相同的參數(shù)數(shù)量(約 2700 萬)。在所有實(shí)驗(yàn)中,我們保持 HRM 流程的其他所有組件不變。

將 HRM 與常規(guī) Transformer 進(jìn)行比較,得到了兩個(gè)有趣的結(jié)果,見圖 3。首先,一個(gè)常規(guī)的 Transformer 在沒有任何超參數(shù)優(yōu)化的情況下,性能與 HRM 模型相差約 5 個(gè)百分點(diǎn)。當(dāng)只有一個(gè)外循環(huán)時(shí),差距最小,此時(shí)兩個(gè)模型的性能不相上下。



圖 3:HRM 模型和相同尺寸的 Transformer 在不同外循環(huán)步數(shù)下的 pass@2 性能。Transformer 在沒有任何超參數(shù)優(yōu)化的情況下,性能與 HRM 相差幾個(gè)百分點(diǎn)。

當(dāng)外循環(huán)次數(shù)多于 1 次時(shí),HRM 表現(xiàn)更好,但隨著外循環(huán)次數(shù)的增加,差距會(huì)縮小。請(qǐng)注意,盡管參數(shù)數(shù)量匹配,HRM 使用了更多的計(jì)算資源,這可能部分解釋了性能差異。增加計(jì)算資源帶來的好處可能會(huì)隨著外循環(huán)次數(shù)的增多而出現(xiàn)收益遞減,這與我們的結(jié)果相符。

我們進(jìn)一步改變了 H-level 和 L-level 的步數(shù)來分析其影響。我們發(fā)現(xiàn),增加或減少迭代次數(shù)(基線為 L = 2, H = 2)都會(huì)導(dǎo)致性能下降。

這些結(jié)果表明,在 ARC-AGI 上的性能并非 HRM 架構(gòu)本身帶來的。雖然它確實(shí)提供了一點(diǎn)好處,但在 HRM 訓(xùn)練流程中換用一個(gè)基線 Transformer 也能達(dá)到相當(dāng)?shù)男阅堋?/p>

發(fā)現(xiàn) 2:

論文中提及較少的「外循環(huán)」優(yōu)化過程

帶來了顯著的性能提升

除了分層架構(gòu),HRM 論文還提出在模型外部使用一個(gè)外循環(huán)(「循環(huán)連接」)。這將模型的輸出反饋給自己,允許模型迭代地優(yōu)化其預(yù)測(cè)。

此外,它使用「自適應(yīng)計(jì)算時(shí)間」(ACT)來控制在特定任務(wù)上花費(fèi)的迭代次數(shù)。ACT 決定是停止預(yù)測(cè)還是繼續(xù)優(yōu)化。

HRM 方法的這一部分類似于 Universal Transformer,后者既有圍繞 Transformer 模型的循環(huán)優(yōu)化循環(huán),也有一個(gè) ACT 的版本。

在我們的第二組實(shí)驗(yàn)中,我們想了解外層優(yōu)化循環(huán)以及 ACT 對(duì)整體性能的影響。我們改變了訓(xùn)練期間的最大外循環(huán)次數(shù),并在推理時(shí)使用最大循環(huán)次數(shù)(遵循 HRM 的實(shí)現(xiàn))。



圖 4:在不同數(shù)量的訓(xùn)練和推理優(yōu)化循環(huán)下的 pass@2 性能。通過迭代優(yōu)化數(shù)據(jù)會(huì)產(chǎn)生強(qiáng)大的影響,正如從 1 次循環(huán)(無優(yōu)化)到 2 次循環(huán)(1 次優(yōu)化)的性能飛躍所示。

如圖 4 所示,外循環(huán)的次數(shù)對(duì)模型性能有顯著影響——從無優(yōu)化(1 次循環(huán))到僅 1 次優(yōu)化,性能躍升了 13 個(gè)百分點(diǎn)。從 1 次優(yōu)化循環(huán)增加到 8 次,公開評(píng)估集上的性能翻了一番。

一個(gè)次要發(fā)現(xiàn)是,在訓(xùn)練期間使用 ACT 確實(shí)能減少每個(gè)任務(wù)的實(shí)際優(yōu)化步數(shù)。然而,雖然使用 ACT 能提高性能,但與固定的 16 次循環(huán)運(yùn)行相比,差異僅在幾個(gè)百分點(diǎn)之內(nèi)。

結(jié)果表明,優(yōu)化外循環(huán)是 HRM 性能的關(guān)鍵驅(qū)動(dòng)力

為了理解訓(xùn)練時(shí)優(yōu)化與推理時(shí)優(yōu)化的影響,我們進(jìn)一步獨(dú)立地改變了推理優(yōu)化循環(huán)的次數(shù)。



圖 5:在不同數(shù)量的推理優(yōu)化循環(huán)下的 pass@2 性能。藍(lán)色條表示使用相同循環(huán)次數(shù)進(jìn)行訓(xùn)練和推理的模型。橙色條表示使用 16 個(gè)優(yōu)化循環(huán)訓(xùn)練,但在推理時(shí)使用不同循環(huán)次數(shù)的模型。例如,1-Loop 處的藍(lán)色條表示用一個(gè)優(yōu)化步驟訓(xùn)練并用一個(gè)優(yōu)化步驟推理的模型。橙色條表示用 16 個(gè)優(yōu)化步驟訓(xùn)練但僅用一個(gè)優(yōu)化步驟推理的模型。

為此,我們比較了兩種設(shè)置。第一種,我們?cè)谟?xùn)練和推理中使用相同數(shù)量的優(yōu)化循環(huán)。第二種,我們用最多 16 個(gè)優(yōu)化循環(huán)步驟訓(xùn)練一個(gè)模型,并分別用 1、4、8 和 16 個(gè)優(yōu)化步驟來評(píng)估它。

比較這兩類模型顯示出實(shí)質(zhì)性差異,尤其是在低推理優(yōu)化步數(shù)(1 和 4)時(shí),見圖 5。用更多的優(yōu)化步驟進(jìn)行訓(xùn)練,可以將單次優(yōu)化循環(huán)預(yù)測(cè)的性能提高超過 15 個(gè)百分點(diǎn),盡管一次循環(huán)意味著沒有任何優(yōu)化的單次前向傳播。在推理時(shí)增加更多的優(yōu)化循環(huán),影響則沒有那么大。這表明,帶優(yōu)化的訓(xùn)練比在推理時(shí)使用優(yōu)化更重要

發(fā)現(xiàn) 3:

跨任務(wù)遷移學(xué)習(xí)的影響有限

在原始論文中,HRM 在 960 個(gè)任務(wù)的演示對(duì)的增強(qiáng)版本上進(jìn)行訓(xùn)練:

來自 ARC-AGI-1 訓(xùn)練集的 400 個(gè)任務(wù)。來自密切相關(guān)的 ConceptARC 基準(zhǔn)的 160 個(gè)任務(wù)。來自 ARC-AGI-1 評(píng)估集的 400 個(gè)任務(wù),這些任務(wù)也是評(píng)估時(shí)要解決的目標(biāo)。

需要注意的是,這并不意味著數(shù)據(jù)泄露,因?yàn)槟P驮谟?xùn)練時(shí)從未看到評(píng)估任務(wù)的測(cè)試對(duì)——而這正是模型被評(píng)估的內(nèi)容。

我們想了解跨任務(wù)遷移學(xué)習(xí)與推斷并記憶評(píng)估時(shí)特定任務(wù)的解決方案相比,其影響如何。我們進(jìn)行了以下實(shí)驗(yàn):我們只在 400 個(gè)評(píng)估任務(wù)上進(jìn)行訓(xùn)練——去掉了來自訓(xùn)練集的 400 個(gè)任務(wù)和來自 ConceptARC 數(shù)據(jù)集的 160 個(gè)任務(wù)。

在這種設(shè)置下,模型達(dá)到了 31% 的 pass@2 準(zhǔn)確率,與最初的 41% 相比僅有小幅下降。這表明,絕大部分性能是由在評(píng)估時(shí)見過的任務(wù)上進(jìn)行訓(xùn)練所驅(qū)動(dòng)的。這意味著 HRM 的做法本質(zhì)上是一種零預(yù)訓(xùn)練的測(cè)試時(shí)訓(xùn)練方法,類似于 Liao 和 Gu 的「無預(yù)訓(xùn)練的 ARC-AGI」。這相當(dāng)于將模型用作一種程序合成基底——在任務(wù)的演示對(duì)上使用梯度下降,將執(zhí)行該任務(wù)的程序編碼到模型的權(quán)重中。

值得注意的是,在我們的實(shí)驗(yàn)中,仍然存在一定程度的跨任務(wù)遷移學(xué)習(xí)——在評(píng)估集的不同任務(wù)之間。我們實(shí)驗(yàn)的一個(gè)更強(qiáng)的版本是,在每個(gè)評(píng)估任務(wù)上單獨(dú)運(yùn)行 HRM 流程,這樣模型在訓(xùn)練時(shí)只會(huì)看到它將被評(píng)估的那一個(gè)任務(wù)的演示對(duì)的增強(qiáng)版本。這將使 HRM 的設(shè)置與 Liao 和 Gu 的設(shè)置完全一致。我們沒有時(shí)間運(yùn)行這個(gè)實(shí)驗(yàn),但我們推測(cè)結(jié)果將與 Liao 和 Gu 的(21% pass@2)非常接近。

發(fā)現(xiàn) 4:

預(yù)訓(xùn)練的任務(wù)增強(qiáng)至關(guān)重要

我們研究的 HRM 流程中另一個(gè)重要組成部分是任務(wù)增強(qiáng)。

數(shù)據(jù)增強(qiáng)是深度學(xué)習(xí)中一種常用方法,用于增加數(shù)據(jù)集中的樣本數(shù)量并提高模型的泛化能力。這意味著對(duì)任務(wù)應(yīng)用旋轉(zhuǎn)、翻轉(zhuǎn)或顏色交換,從而在不改變?nèi)蝿?wù)基本概念的情況下生成新數(shù)據(jù)。

HRM 對(duì)任務(wù)的所有增強(qiáng)版本進(jìn)行預(yù)測(cè),然后將增強(qiáng)后的預(yù)測(cè)還原(或「去增強(qiáng)」),使其恢復(fù)到原始任務(wù)格式。然后,模型對(duì)這些預(yù)測(cè)進(jìn)行多數(shù)投票以選出最終候選。

我們測(cè)試了對(duì)基線 HRM 的以下修改:

編譯數(shù)據(jù)集時(shí)最大增強(qiáng)的數(shù)量。用于多數(shù)投票的最大預(yù)測(cè)數(shù)量。

因?yàn)?HRM 只能處理訓(xùn)練期間遇到過的增強(qiáng)類型,所以我們?cè)谕评頃r(shí)對(duì)第 2 點(diǎn)的改變僅限于減少增強(qiáng)數(shù)量,而不能增加。

圖 7 中的結(jié)果顯示了兩個(gè)趨勢(shì)。首先,使用數(shù)據(jù)增強(qiáng)確實(shí)能顯著提高性能。然而,僅使用 300 次增強(qiáng),而不是論文中使用的 1000 次,就已接近最大性能。僅使用 30 次增強(qiáng)(論文中總數(shù)的 3%)的性能與最大性能相差不到 4%。

其次,在訓(xùn)練期間使用數(shù)據(jù)增強(qiáng)似乎比為多數(shù)投票獲得更大的池子更重要。用更多增強(qiáng)訓(xùn)練的模型,在用較小池子進(jìn)行推理時(shí),性能下降得要少得多。

其他技術(shù)性學(xué)習(xí)

深入研究 HRM 的內(nèi)部機(jī)制還帶來了一些其他有趣的發(fā)現(xiàn)。

首先也是最重要的一點(diǎn),HRM 將 ARC-AGI 任務(wù)分解為單個(gè)的輸入-輸出對(duì),他們稱之為謎題(puzzles)。每個(gè)謎題會(huì)獲得一個(gè) puzzle_id,它由任務(wù)哈希值和應(yīng)用于此特定謎題的增強(qiáng)代碼組成。

在訓(xùn)練和推理時(shí),模型只接收輸入和 puzzle_id——沒有包含任務(wù)其他輸入-輸出示例的少樣本上下文。HRM 模型必須學(xué)會(huì)將一個(gè) puzzle_id 與一個(gè)特定的轉(zhuǎn)換關(guān)聯(lián)起來,以便它能從輸入預(yù)測(cè)輸出。

為此,它將 puzzle_id 輸入一個(gè)大的嵌入層。這個(gè)嵌入層是關(guān)鍵——沒有它,模型就不知道如何處理輸入。這帶來了一個(gè)主要限制:該模型只能應(yīng)用于它在訓(xùn)練時(shí)見過的 puzzle_id

在與作者就此話題的交流中,他們解釋說,為少樣本上下文更改謎題嵌入是一個(gè)復(fù)雜的工程挑戰(zhàn)。在早期版本中,他們做過比較,發(fā)現(xiàn)在更大的類 ARC 數(shù)據(jù)集上,少樣本上下文效果很好,但在樣本受限的 ARC 上,謎題嵌入的表現(xiàn)明顯更好。我們沒有復(fù)現(xiàn)這些實(shí)驗(yàn),但這為未來的工作指明了有趣的方向。

出于同樣的原因,在這個(gè)版本的 HRM 中,推理數(shù)據(jù)必須是訓(xùn)練數(shù)據(jù)集的一部分。例如,獨(dú)立地改變?cè)鰪?qiáng)數(shù)量并不是一件直接的事情。

最后,雖然優(yōu)化循環(huán)對(duì)性能有明顯影響,但 HRM 是純粹轉(zhuǎn)導(dǎo)性的。雖然可以展開優(yōu)化步驟,但底層的程序仍然是隱式的。我們的假設(shè)是,這種方法不具備泛化能力

待解決的問題與未來工作

我們對(duì) HRM 的實(shí)驗(yàn)為我們揭示了其在 ARC-AGI 上表現(xiàn)出色的原因,但其他問題依然存在。除了上面提到的,我們還邀請(qǐng)社區(qū)探索以下更多問題:

puzzle_id 嵌入對(duì)模型性能有多大影響?與將任務(wù)中的其余示例作為上下文提供相比如何?

HRM 在其訓(xùn)練數(shù)據(jù)之外的泛化能力如何?是否有任何方法可以在新數(shù)據(jù)上微調(diào) HRM?

在推理時(shí),學(xué)習(xí)到的停止機(jī)制有何影響?其好處僅限于節(jié)省計(jì)算資源,還是也能提高性能?

優(yōu)化的思想是否能推廣到其他方法,例如合成顯式程序的歸納方法?

通過在每個(gè)評(píng)估任務(wù)上單獨(dú)進(jìn)行訓(xùn)練和評(píng)估,可以達(dá)到什么樣的性能?(消除所有跨任務(wù)遷移學(xué)習(xí)。)

哪些特定的增強(qiáng)類型能帶來更高的性能?旋轉(zhuǎn)?顏色交換?為什么?

結(jié)語

來自 ARC Prize 的分析非常詳盡,不少人感嘆說,這才是真正的「同行評(píng)審」。



還有人說,這個(gè)分析本身和論文一樣重要。如果大家以后能夠更多地用這種方式去分析一些備受關(guān)注的研究,相信社區(qū)可以更加高效地獲取一些新知識(shí)。



免責(zé)聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。

全站最新
伊人成色综合网| 亚洲国产精品日韩| 成人在线观看网址| 日韩不卡视频一区二区| 特黄视频免费观看| 欧美成人三级视频| 久久婷婷av| 国产精品国产自产拍高清av| 精品国产一区久久| 日韩免费观看在线观看| 97精品国产97久久久久久粉红| xxx中文字幕| 91丨九色丨海角社区| 国产成人精品1024| 欧美日韩成人激情| 欧美一级bbbbb性bbbb喷潮片| 亚洲欧美久久久久一区二区三区| 中文字幕色网站| 中文字幕a级片| 99久久精品国产毛片| 91麻豆精品国产91久久久使用方法 | 99久久免费视频.com| 91久久精品一区二区三区| 久久久久久久久久久久av| 亚洲一卡二卡三卡| 成人午夜免费影院| 免费久久精品视频| 欧美日韩国产一二三| 国产精品第三页| www.激情小说.com| 欧美超碰在线观看| 中文一区二区在线观看| 中文字幕亚洲欧美在线| 性欧美.com| 99精品中文字幕| 国产一区二区三区黄视频 | 91成人天堂久久成人| 看全色黄大色大片| 国产精品国产精品88| 经典三级在线一区| 91麻豆精品国产综合久久久久久| 成人黄色在线免费| 少妇搡bbbb搡bbb搡打电话| 亚洲精品久久久蜜桃动漫| 欧美日韩国产一区在线| 秋霞av国产精品一区| 一本久道中文无码字幕av| 在线观看免费视频a| 亚洲美女精品一区| 国产成人一区二区三区小说| 亚洲第一中文av| 人妻一区二区三区免费| 色一情一乱一乱一91av| 成人亚洲激情网| 亚洲日本久久久| 日韩精品午夜视频| 91精品国产麻豆国产自产在线 | 亚洲成人性视频| 欧美成人蜜桃| 免费一级肉体全黄毛片| 97久久久精品综合88久久| 深夜福利91大全| 亚洲欧洲日产国码无码久久99| 久操视频在线免费观看| 亚洲高清视频在线| 91日韩在线播放| www.4hu95.com四虎| 91视频你懂的| 欧美片一区二区三区| aaaaaa亚洲| 国产 日韩 欧美 综合| 6080午夜不卡| 免费看av软件| 国产熟女精品视频| 538prom精品视频线放| 日韩国产伦理| 久久久久在线视频| 色香色香欲天天天影视综合网| 国产欧美日韩一区二区三区| 国产免费无码一区二区视频| 亚洲精品自拍动漫在线| 91福利入口| 男人的天堂久久久| 亚洲午夜三级在线| 久久五月天婷婷| 国产精品黄色大片| 欧美性做爰猛烈叫床潮| 亚洲va韩国va欧美va精四季| 中文字幕精品无码亚| 欧美日韩国产123区| 日韩video| 精品人妻少妇嫩草av无码专区| 欧美一区二区视频在线观看2020| 色综合久久av| 精品久久久中文字幕人妻| 精品免费国产二区三区| 日韩少妇内射免费播放| 日韩国产精品大片| 欧美大片第1页| 熟女少妇一区二区三区| 国产精品成人一区二区三区夜夜夜| 国产精品三级网站| 国产精品99无码一区二区| 色老汉av一区二区三区| 亚洲综合欧美日韩| 天使萌一区二区三区免费观看| 日韩最新中文字幕电影免费看| 99999精品| 国产亚洲精品7777| 99国产高清| 69av视频在线观看| 日韩电影在线观看中文字幕| 女同激情久久av久久| 99久久综合99久久综合网站| 成人免费观看网址| 欧美成人一区二区三区四区| 日韩午夜在线影院| 性欧美videossex精品| 91麻豆精品视频| 国产精品一区视频网站| 国产精品无码AV| 在线看国产精品| 久久精品无码一区| 在线欧美日韩精品| 久久久久久人妻一区二区三区| 国产一区二区精品久久91| 国产成人免费av电影| 国产成人无码精品| 亚洲免费小视频| 六月婷婷七月丁香| 欧美午夜片欧美片在线观看| 久久久久久www| 粉嫩aⅴ一区二区三区四区| 91精品国产99久久久久久红楼| 97超碰人人模人人人爽人人爱| 亚洲精品wwwww| 国产夫妻性爱视频| 一本久久精品一区二区| www黄色在线| 一色屋精品亚洲香蕉网站| 一区二区视频在线观看| 国产黄色91视频| 麻豆成人在线播放| 激情图区综合网| 国产高清精品一区二区| 亚洲人成色777777精品音频| 琪琪亚洲精品午夜在线| 在线视频 91| 欧美疯狂性受xxxxx另类| 日本三级网站在线观看| 亚洲欧美www| 久久福利免费视频| 精品国产百合女同互慰| 91网站免费视频| 日韩精品自拍偷拍| 精品人妻中文无码av在线| 欧美α欧美αv大片| 在线免费看黄视频| 亚洲国产成人爱av在线播放| 小早川怜子久久精品中文字幕| 欧美久久久久久久久久| 国产美女喷水视频| 欧美精品一区二区三| 欧美乱大交做爰xxxⅹ小说| 亚洲成人av片| 久久久久麻豆v国产| 亚洲美女视频网站| 久久久久久久99| 欧美乱人伦中文字幕在线| 凹凸精品一区二区三区| 午夜免费久久久久| 国产精品无码专区av在线播放| 91网站黄www| 妞干网在线观看视频| 亚洲免费av在线| 蜜臀一区二区三区精品免费视频| 色综合天天狠狠| 捆绑裸体绳奴bdsm亚洲| 亚洲国产成人在线播放| 中文字幕99| 26uuu精品一区二区在线观看| 成人激情四射网| 久久精品亚洲一区二区| 91精品国产综合久久蜜臀 | 欧美成人r级一区二区三区| 国产xxxx视频| 91麻豆精品国产自产在线观看一区| 人妻熟女aⅴ一区二区三区汇编| 亚洲丁香婷深爱综合| 极品色av影院| 久国内精品在线| 亚洲第一大网站| 久久综合九色综合网站| 国产欧美综合在线观看第十页| 国产高清av在线播放| 亚洲va韩国va欧美va精品 | 九九九国产视频| 国产成人精品免高潮在线观看| 国产网站无遮挡| 亚洲男人天堂古典| 一区二区的视频| 国产精品久久久久久久久久久久午夜片| 成人av免费在线观看| 亚洲人成无码网站久久99热国产| 欧美午夜片在线免费观看| 国产又粗又猛又爽又黄的视频小说 | 在线观看一区二区精品视频| 亚洲AV无码片久久精品| xvideos亚洲人网站| 黄片毛片在线看| 自拍亚洲欧美老师丝袜| 欧美日韩在线免费观看| 国产在线一卡二卡| 国产精品成熟老女人| 成人av第一页| 在线视频观看一区二区| 亚洲免费一在线| 农村少妇久久久久久久| 浴室偷拍美女洗澡456在线| 欧美亚男人的天堂| 国产第一页在线观看| 国产一区二区在线观看免费播放| 中文字幕在线不卡一区| 四虎永久免费在线观看| 97视频在线观看视频免费视频| 国产精品中文字幕欧美| 中文字幕第100页| 夜夜嗨av色一区二区不卡| 久久婷婷av| 天天影视综合色| 中文在线资源观看视频网站免费不卡 | 最新不卡av| 欧美日韩www| 中文字幕一二三四| 大桥未久一区二区| 日韩欧美中文字幕公布| 亚洲AV午夜精品| 少妇高潮喷水在线观看| 亚洲精品天天看| 日韩有码一区二区三区| 超碰网在线观看| 永久免费毛片在线播放不卡| 蜜臀av亚洲一区中文字幕| 好男人www社区| 欧美精品一区在线播放| 粉嫩绯色av一区二区在线观看| 一级黄色片毛片| 国产精品免费福利| 亚洲精品高清视频在线观看| 欧美日韩三级在线观看| 欧美日韩高清免费| 91精品在线麻豆| 香蕉视频国产在线| 亚洲制服在线观看| 欧美在线视频观看| 亚洲欧美日韩在线不卡| 国产免费av一区二区| 国产日韩第一页| 一区二区欧美在线| zzijzzij亚洲日本少妇熟睡| 免费看污黄网站在线观看| 99三级在线| 欧美日韩亚洲丝袜制服| 天堂网av在线播放| 337p日本欧洲亚洲大胆张筱雨| 欧美在线视频观看| 午夜精品久久久久久久久| 91一区二区视频| 激情内射人妻1区2区3区| 欧美韩国理论所午夜片917电影| 久久久国产精品午夜一区ai换脸| 日韩欧美国产成人精品免费| 天天人人精品| 夜夜嗨av一区二区三区免费区 | 日本欧美中文字幕| 亚洲一区二区偷拍精品| 夜夜躁狠狠躁日日躁av| 粗暴91大变态调教| 欧美在线亚洲在线| 红桃av永久久久| 国产av一区二区三区传媒| 国产91成人video| 精品久久久久久久大神国产| 国产乱淫av片免费| 成人性生交视频免费观看| 国产精品一区二区三区免费视频 | 国产91精品在线播放| 天天综合色天天综合| 涩涩视频免费看| 亚洲午夜久久久久久久久红桃 | 欧美日韩国产天堂| 日韩经典中文字幕一区| 波多野结衣片子| 亚洲精品在线免费| 久久综合五月天| 亚洲一区二区中文在线| 亚洲AV无码一区二区三区性| 国产一卡二卡三卡四卡| 久久资源亚洲| 久久久av电影| 日本久久一区二区三区| 国产毛片精品一区| 国产精品500部| 色哟哟精品视频| 国产精品国模大尺度私拍| 亚洲欧洲在线视频| 亚洲一区二区三区四区在线观看 | 午夜精品久久久久久久蜜桃| 亚洲综合在线网站| 91久久夜色精品国产网站| 日韩国产高清污视频在线观看| 国产欧美精品一区aⅴ影院| 亚洲天堂中文在线| 香港三级日本三级| 香蕉精品视频在线| 国产成人啪精品视频免费网| 日韩一区二区影院| 中文字幕国产一区| 人妻精品一区一区三区蜜桃91| 在线小视频你懂的| 国产超级av在线| 97免费高清电视剧观看| 日韩中文字幕国产| 在线精品视频免费播放| 久久综合精品国产一区二区三区 | 国产女人高潮毛片| 久久精品国产亚洲av麻豆| 最近2019中文字幕mv免费看 | 草视频在线观看| 91看片破解版| 欧美 另类 交| 国产在线日韩在线| 最近2019中文字幕第三页视频 | 午夜在线视频免费观看| 国产成人avxxxxx在线看| 日韩高清人体午夜| 精品久久久久国产| 久久精品欧美一区二区三区麻豆| 精品欧美一区二区精品少妇| 成人在线观看高清| 91视频福利网| 8x8x华人在线| 国产精品视频500部| 538国产精品一区二区免费视频| 欧美大胆一级视频| 岛国av一区二区在线在线观看| 91视频国产观看| 日本成人在线视频网站| 中文在线最新版天堂| 亚洲欧美综合7777色婷婷| 五月天av在线播放| 91成人综合网| 日本视频一区在线观看| 国产免费一区二区三区在线观看| 久久久黄色av| 亚洲免费电影一区| 欧美一二三四在线| 欧美综合天天夜夜久久| 一区二区三区四区在线免费观看| www国产成人| 国产一级精品在线| 天天爽夜夜爽夜夜爽| 一本色道久久综合无码人妻| 欧美激情国产精品免费| 这里只有久久精品| 午夜不卡久久精品无码免费| 992kp快乐看片永久免费网址| 9191国产视频| 亚洲最新在线| 欧美精品欧美精品| 国产精品夜夜夜一区二区三区尤| 国产精品福利在线观看网址| 欧美国产第二页| 久久综合国产精品台湾中文娱乐网| 亚洲精品日韩久久久| 亚洲成人精品视频| 精品久久久久久无| 69堂精品视频| 宅男噜噜噜66一区二区66| 欧美日韩视频在线第一区| 懂色av影视一区二区三区| 亚洲一区二区在线免费观看视频 | 夜夜嗨av一区二区三区中文字幕 | 欧美疯狂做受xxxx富婆| 日本韩国精品在线| 色婷婷亚洲精品| 黑人巨大精品欧美一区二区三区 | 18精品爽视频在线观看| 一级二级黄色片| 成年人看的免费视频| 91精品人妻一区二区三区蜜桃欧美| 韩国三级与黑人| 中文字幕在线视频一区二区三区| 国产成人精品视频ⅴa片软件竹菊| 欧美二区在线视频| 欧美精品色婷婷五月综合| av免费观看网| 九九视频精品在线观看| 国内自拍视频网| 99日在线视频| 动漫美女无遮挡免费| 在线观看av中文字幕| 久久午夜精品视频| 国产成人综合在线视频| 国产精品久久久精品四季影院| 久操视频免费在线观看| 天天综合天天干| 国产精品久久久久久久久久久久久久久久久久 | 美女久久久精品| 国产一区二区剧情av在线|