![]()
新智元報道
編輯:艾倫
在號稱「史上最嚴管控AI」的頂級會議ICLR 2026上,評審區卻悄悄被大模型攻占。每五條審稿意見里,就有一條幾乎全由AI一鍵生成。當作者懷疑評審是機器人寫的、審稿人又懷疑論文是模型拼的,同行評審這臺「科學秩序的發動機」,正一點點滑向一場沒人承認、卻無處不在的自動化實驗。
學術圈再次上演荒誕一幕。
一項剛剛公布的分析顯示,在最新一屆頂級人工智能會議ICLR 2026中,超過五分之一的審稿意見是由大模型一鍵寫出來的。
卡內基梅隆大學教授Graham Neubig使用Pangram Labs的AI文本檢測工具EditLens,對ICLR公開的75800條評審意見逐條「驗身」,結果發現:21%被判定為「完全由AI生成」,另外35%不同程度由AI修改,只剩43%被認為是純人類撰寫。
![]()
這些「AI全包」的評審不僅篇幅更長,給出的分數也更高:
在EditLens的統計里,完全AI生成的評審平均評分4.43分,而完全人寫的是4.13分;
AI評審的平均長度接近3700個字符,比人類評審足足長出一大段。
很多作者這次面對的,可能是一位「特別健談、格外慷慨打分」的機器人審稿人。
被AI「占領」的
是誰家的主場?
ICLR(國際學習表征大會)是當今機器學習領域三大頂會之一,與NeurIPS、ICML并稱「AI三巨頭」。
本屆ICLR 2026,將于明年4月在巴西里約熱內盧舉辦,投稿量接近兩萬篇,遠超往年。
在這樣的「論文洪水」之下,審稿人壓力極大,很多人早就半開玩笑地說自己像是在「批改高考作文」。
讓AI來幫忙,其實早就是公開的秘密。
差別在于,這一次是用數據把秘密攤在了陽光下。
EditLens本身就是一篇ICLR 2026投稿論文,作者提出了一種能識別「人寫+AI潤色」「純AI寫作」等細粒度混合文本的檢測模型,并宣稱在區分人類和AI文本時能達到很高準確率。
![]()
https://arxiv.org/pdf/2510.03154
Pangram Labs這家公司也專門對外宣傳,自己的模型在多種場景下「假陽性率極低」,已經被期刊和高校用來篩查AI寫作。
于是,一家做「AI檢測器」的公司,用自家模型掃了一遍全球最重要AI會議之一的審稿意見,得出的結論是:AI已經大舉攻入人類學術評審的心臟地帶。
諷刺的是
ICLR剛剛立下「史上最嚴AI新規」
更戲劇性的,是這次「AI審稿占比21%」的爆料,恰好發生在ICLR頒布史上最嚴LLM規定之后不久。
今年8月,ICLR 2026組委會在官方博客上發布《大型語言模型使用政策》,給出了兩條鐵律:用沒用大模型,都必須老老實實寫出來;不管用了什么工具,最后責任都算在人身上。
![]()
如果發現作者在論文寫作或研究中大量使用LLM卻沒有披露,可以直接desk reject(拒稿不再審);
審稿人如果用AI寫評審卻不承認,同樣有可能連自己的論文一起被拒。
一邊是官方高調強調「用AI必須坦白,從嚴問責」;
另一邊,是第三方工具在公開頁面上給出一行冷冰冰的統計:「Fully AI-generated:15899(21%)」。
這種強烈反差,很難不讓人懷疑:有相當一部分審稿人,在政策高壓之下,依舊默默把評審任務交給了大模型。
ICLR在輿情爆發后,也只是做出了一個簡短回應:
![]()
作者炸鍋
低分、怪評,與「精神病」評論
這屆ICLR的評審,本來就已經讓不少投稿者心態爆炸。騰訊新聞對ICLR 2026出分做過一篇長文梳理:投稿量猛增到1.9萬多篇,平均得分卻從去年的5.12掉到4.20,出現了作者人生首次在頂會上收獲「0分」的極端情況。
更令人瞠目的是,有評審在意見中用上了「精神病」這樣的攻擊性詞匯,引發社區公憤,最后原始評論被刪除,審稿人公開道歉,但堅持認為「對論文問題的判斷沒錯」。
![]()
還有審稿人抱怨,自己經手的論文寫得像AI拼出來的,「新術語沒定義,引用亂飛,實驗稀碎」,讓人要花好幾個小時才能看懂,結果作者一句撤稿就換會重投。
在這篇報道里,DeepMind研究員Neel Nanda被引用的一句話格外刺耳:同行評審更像一臺「隨機數生成器」——同一篇論文,換一組審稿人,一半概率被拒。
現在再把這句話和「21%審稿由AI寫成」放在一起看,難免讓人多想:
如果評審本來就有很大隨機性,再加上一堆看起來嚴謹實則模板化的AI長評,這臺「隨機數機」會不會變得更難預測?
其他頂會在干什么?
ICLR不是第一家也不會是最后一家被AI沖擊審稿系統的學術機構,只是因為自身是AI頂會,顯得格外「魔幻」。
在計算機視覺頂會CVPR 2025,審稿指南直接寫明:大模型在任何階段都不得用于撰寫評審或元評審,屬于零容忍政策;
![]()
不負責任的審稿意見,比如只有一兩句話、明顯由大模型生成、或與論文無關,可能被標記為「高度不負責任」,嚴重時會牽連審稿人自己的投稿被拒。
NeurIPS 2025的態度則更像「謹慎開放」:允許在寫論文時使用LLM,但要求對方法性使用作出說明,還專門設立頁面解釋如何合規地用AI,強調不得把模型生成的引用不加核查地塞進文中。
![]()
而在更廣泛的學術出版界,AI審稿也已引發連鎖反應。
《自然》報道,美國癌癥研究協會(AACR)在期刊評審中引入Pangram的檢測工具后,發現在明令禁止后,疑似AI撰寫的評審比例立刻下降了一半,但論文正文中未聲明使用AI的比例仍然不低。
禁令確實會讓人收斂,但AI早已融入科研流程,很難完全「驅逐出境」。
有趣的是,ICLR自己也在嘗試更「溫和」的AI用法。
2025年,組委會與OpenReview合作,在ICLR 2025審稿中試驗了一套「評審反饋智能體」:AI不直接寫評審,而是給審稿人提出修改建議,比如讓模糊的批評更具體、指出誤解之處、提醒刪掉不專業措辭。
實驗顯示,26.6%的審稿人根據AI建議修改了評審,平均多寫了80個字,人類評估者在89%的對比中更偏好修改后的版本,但論文最終錄用率并沒有明顯被拉高。
這一輪實驗讓不少人看到:AI并不一定只能當「影子審稿人」,也可以做「評審教練」。
當審稿人和作者都在懷疑對方
「這是人類啊?」
從作者視角看,現在的頂會有些像一場雙向「狼人殺」:
作者懷疑收到的是AI寫的評審,審稿人懷疑看到的是AI生成的論文;
會議組委會則一邊動用檢測模型排查,一邊又在討論如何合法、安全地用同類模型來幫自己減負。
與此同時,研究者們也在更系統地觀察AI評審的行為差異。
最新的Gen-Review數據集就模擬了2018–2025年ICLR所有投稿的「AI版本評審」,發現大模型在打分上存在偏向,且不總是嚴格遵守審稿指引,評分與最終錄用結果的相關性也有限。
這場圍繞ICLR 2026的風波,其實只是一塊放大鏡。
它把一個原本散落在期刊、會議、預印本平臺各處的趨勢集中顯影,AI正悄悄改寫科學評審的分工,而人類社會還沒想明白到底希望它扮演什么角色。
也許,真正的危機是,我們是否還愿意為每一條評審、每一篇論文,投入那一點點不可替代的人類注意力。
當越來越多的評審是由模型寫給模型,人類科學家必須回答的,也許是這樣一個問題:在這場看似自動化的評判游戲里,我們究竟是裁判,還是被算法順手帶偏的旁觀者。
參考資料:
https://iclr.pangram.com/submissions





京公網安備 11011402013531號