衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
ICLR 2026,居然有21%的評審是純純由AI生成的?!
上面這個相當(dāng)扎心的答案,來自Pangram實驗室的分析報告。
這件事被發(fā)現(xiàn)的起因頗具戲劇色彩:CMU的AI研究員Graham Neubig,感覺自己收到的同行評審AI味超級重。
他之所以起疑心,是因為這些評審內(nèi)容“非常冗長,且包含大量符號”,并且所要求的分析方式并非“審稿人通常在AI或ML論文中所要求的那種標(biāo)準(zhǔn)統(tǒng)計分析方式”。
做事嘛,不能光靠直覺,要真憑實據(jù)啦。
Graham Neubig自己干不了這個事兒,就在上發(fā)布了一個懸賞令,希望有人能做一輪系統(tǒng)性的檢測,看ICLR的論文和審稿中到底夾雜了多少AI文本。
我愿意懸賞50美元,給第一個做了這件事的人~
![]()
Pangram實驗室就是那個接黃榜的。
這個實驗室的業(yè)務(wù)之一,正好是開發(fā)檢測AI生成文本的工具。
結(jié)論簡單粗暴:
75800條評審中,15899條高度疑似完全由AI生成,占比21%。大量論文正文中也檢測出AI參與的痕跡,有的論文甚至大半字?jǐn)?shù)都是AI的產(chǎn)出。
一個頂級AI學(xué)術(shù)會議,審稿和投稿兩頭都出現(xiàn)大規(guī)模AI代寫……
是怎么測出“AI味”的?
Pangram這次對ICLR的全部提交論文和所有評審做了系統(tǒng)分析,并且在博客中公開了全過程。
他們先在OpenReview上,把ICLR 2026的數(shù)據(jù)全部拉了下來,總計約19490篇論文投稿,以及75800條審稿意見。
這些論文多為PDF格式,普通PDF解析工具面對公式、圖表、行號、表格等內(nèi)容時容易抽風(fēng),會干擾后續(xù)的文本分析。所以常規(guī)的PDF解析器,比如PyMuPDF就用不了了。
于是Pangram用OCR模型(他們用的是Mistral OCR) 把PDF轉(zhuǎn)成Markdown,再統(tǒng)一轉(zhuǎn)成純文本,盡量減少格式噪音。
![]()
檢測兩類文本時,Pangram實驗室用了兩種不同的模型——
檢測論文正文時,用的是extended text classifier。
具體流程是先把整篇論文按段落或語義片段切分成若干segment,判斷每個segment“更像人寫”還是“更像AI寫”。
之后匯總結(jié)果,得到整篇論文中AI生成內(nèi)容的大致比例,最后標(biāo)記出“人類為主”“混合寫作”“幾乎完全AI生成”“極端outlier”等類別。
為了驗證模型的準(zhǔn)確程度,Pangram還拿2022年之前的ICLR論文和NeurIPS論文做了測試。
結(jié)果顯示,這些論文由AI生成的概率是0%(盡管有部分論文用于模型訓(xùn)練)。
![]()
檢測評審內(nèi)容時,使用了新模型EditLens。
這個模型除了判斷評審內(nèi)容是否為AI生成外,還嘗試判斷AI在其中的參與程度。
分為五個級別:完全人工撰寫、AI潤色、中等程度AI編輯/輔助、AI重度參與、完全由AI生成。
在一個已知完全由人類撰寫的對照語料上,EditLens把純?nèi)祟悓懽鲀?nèi)容錯判成AI潤色過的內(nèi)容的誤報率,差不多是1/1000;錯判成中等程度AI編輯/輔助內(nèi)容的誤報率是1/50000;錯判成AI重度參與的錯誤率是1/100000。
![]()
回到實驗室對ICLR 2026論文和評審的檢測,結(jié)果如下。
有15899篇評審?fù)耆葾I生成,占評審總數(shù)的21%。
此外,超過一半的評審涉及不同程度的AI參與行為。
![]()
此外,61%的ICLR 2026論文是人工撰寫的,但有199篇論文(占總數(shù)量的1%)完全由AI生成。
但實驗室提到,部分完全由AI生成的論文,可能在此前已經(jīng)被ICLR拒稿了,不會出現(xiàn)在OpenReview中。
![]()
AI頂會審稿正陷入一種奇妙的惡性循環(huán)
Pangram表示,他們做這個事情當(dāng)然是因為有個懸賞貼在(doge),但并不是為了“點人名、批判某幾個個體”,而是希望揭示一個趨勢,一種現(xiàn)象。
ICLR 2026高級項目主席、康奈爾大學(xué)伊薩卡分校副教授Bharath Hariharan表示,這是ICLR首次大規(guī)模遇到此類問題。
ICLR開始用自動化工具,來評估提交的論文和同行評審是否違反了會議規(guī)定。
是的,其實ICLR對論文和評審中使用AI/禁止使用AI有非常清晰和詳細(xì)的規(guī)定。
首先,如果使用了AI,必須披露,需要遵循“所有對研究的貢獻(xiàn)都必須得到承認(rèn)”和“貢獻(xiàn)者應(yīng)該期望……獲得對其工作的認(rèn)可”的道德準(zhǔn)則政策。
其次,ICLR作者和評審者最終對其貢獻(xiàn)負(fù)責(zé),遵循“研究人員不得故意做出虛假或誤導(dǎo)性聲明,編造或篡改數(shù)據(jù),或歪曲結(jié)果”的道德準(zhǔn)則政策。
同時,ICLR還規(guī)定了作者在使用AI撰寫論文和進(jìn)行評審時應(yīng)遵循的指南。
總結(jié)來說,論文作者可以用AI幫自己撰寫論文,或者配合自己做研究,但必須聲明自己使用了AI,并對論文的科學(xué)性和誠信負(fù)責(zé)。
同行可以用AI潤色自己的評審,但純用AI寫評審可能違反道德準(zhǔn)則,因為這既不是同行本人的觀點而是外部意見,也違反了保密原則。
![]()
值得一提的是,Pangram實驗室還把“AI 使用程度”和“評審分?jǐn)?shù)”做了關(guān)聯(lián)。
結(jié)果呈現(xiàn)出來的是兩個相當(dāng)微妙的趨勢:
第一,論文中AI內(nèi)容越多,平均收到的審稿評分就越低。
這可能意味著現(xiàn)階段的AI寫作,還是無法代替人類原創(chuàng)的論文的質(zhì)量。
![]()
第二,審稿中AI參與程度越高,給出的評分就會越高。
換句話說,AI審稿更傾向于寬松友好的態(tài)度,評分就會偏高。
![]()
此外,AI生成的審稿內(nèi)容往往字?jǐn)?shù)較多,但信息密度低,建設(shè)性建議少,評論很多都很空洞,要不就是一堆車轱轆話。
這和以前 “長審稿=高質(zhì)量審稿” 的情況完全相反。
而且論文作者們?yōu)榱烁玫豶ebuttal,一定會很認(rèn)真地看評審意見。結(jié)果可能就是讀了一些又長又沒用的屁話,攤手。
這真的很消耗同行之間的信任。
![]()
怎么判斷你得到的review是不是AI生成的?
Pangram實驗室總結(jié)了一些AI生成的評審內(nèi)容的特點,供大家參考,判斷自己得到的review人工含量高不高。
先說標(biāo)題。
AI生成的同行評審喜歡用粗體章節(jié)標(biāo)題,標(biāo)題往往由2-3個摘要標(biāo)簽組成,后面會跟冒號。
一個例子:
![]()
整體內(nèi)容上,AI生成的評審內(nèi)容總是吹毛求疵,沒給出啥真正的分析。
這些評審基本都在關(guān)注表面問題。典型的AI評審內(nèi)容包括提出讓論文作者做更多已展示的消融實驗、要求增加測試集大小或控制數(shù)量,或要求提供更多示例。
當(dāng)然,最明顯的就是說一些沒啥用的片湯話,讓人聽君一席話,如聽一席話那種。
不過,一個新的問題出現(xiàn)了。
正如芝加哥大學(xué)經(jīng)濟(jì)學(xué)家 Alex Imas最近一條推文中說的那樣:
我們是否希望在同行評審中包含人類判斷?
![]()
One More Thing
又有坑慘階躍AI研究員的蘋果論文,又有雙盲評審制度一夜失效的bug,現(xiàn)在還有這么大規(guī)模的AI評審內(nèi)容被揪出來……
今年的ICLR真的是抓馬十足,而且開盒事件的余波還沒有完全平息。
能理解大家知道是誰給自己的論文打低分后,情感上絕對會感覺到被背刺。
但事后值得關(guān)注的重中之重,還是“如何保證雙盲評審能繼續(xù)按規(guī)則施行”,任何頂會都不要再有這種驚天bug發(fā)生。
這關(guān)乎到整個學(xué)術(shù)共同體,是大家要一起面對的問題。
![]()
就像謝賽寧說的那樣,“請務(wù)必善待我們的社區(qū)。它已經(jīng)如此脆弱,請不要讓它消亡。”
![]()
參考鏈接:
[1]https://www.pangram.com/blog/pangram-predicts-21-of-iclr-reviews-are-ai-generated
[2]https://www.nature.com/articles/d41586-025-03506-6





京公網(wǎng)安備 11011402013531號