“unparalleled”、“invaluable”、“heighten”……
小心!這些詞可能會偷偷暴露你的論文是AI幫忙寫的,一年之內14%使用LLM的生物醫學論文就是這樣被發現滴……

據Nature最新報道,研究發現在2024年PubMed上發表的150萬篇生物醫學研究摘要中,其中超過20萬篇都頻繁出現LLM特征詞。
這些詞匯大多都是多余的風格性動詞和形容詞,只改變了文體,并不影響內容。
在部分國家和學科中,AI輔助寫作的比例也已經超過五分之一,而這一趨勢還在不斷上升。

與此同時,部分作者也注意到這點,開始引導LLM規避明顯的AI痕跡,這也讓我們現在難以得知LLM對學術產出的影響究竟有多深……
日益深化的LLM學術影響力
自從ChatGPT首次實現在學術領域生成接近人類水平的文本,許多作者開始將LLM融入日常寫作,甚至與LLM一起合作撰寫論文。
但雇傭LLM代筆,未必如想象中隱秘。
和人類作者一樣,LLM也喜歡在論文中留下自己獨特的寫作印記,雁過留痕,恰好這些也成為了發現LLM的途徑。

研究團隊從PubMed上下載了1400萬篇摘要(2010年-2024年),構建詞匯出現的二元矩陣,計算每年詞匯頻率,并將實際頻率與預期頻率的差值δ和比值r作為衡量超額使用的指標。

實驗發現,在2024年以前,類似“coronavirus” 的名詞被超額使用;2024年之后,則以“intricate”、“notably” 等與研究內容無關的風格詞為主,其中66%都是動詞(如 “delving”、“emphasizing”),16%為形容詞(如 “crucial”、“pivotal”)。

好家伙,原來LLM你小汁喜歡華麗風哇,喜歡怎么夸張怎么來。
Σ( ° △ °|||)︴
例如,LLM喜歡醬紫:
通過仔細研究連接[…]和[…]的錯綜復雜的網絡,本章深入探討了他們的參與作為[…]的重要風險因素。
全面掌握[…]和[…]之間錯綜復雜的相互作用對于有效的治療策略至關重要。
最初,我們深入研究了[…]的復雜性,強調了它在細胞生理學中不可或缺的地位,控制其通量的酶迷宮,以及關鍵的[…]機制。
嘶,聽起來是不是相當熟悉,現在人類寫作風格也逐漸被LLM影響,打開一篇論文鋪天蓋地都是“深入研究了”、“極具潛力的”、“至關重要的”、“無與倫比的”……
部分詞匯的頻繁出現,讓使用LLM的論文極易被察覺,通過將222個低頻風格詞和10個高頻風格詞組合計算,研究人員發現在2024年的論文中至少10%-11%的摘要中使用了LLM,部分子語料庫中這一比例甚至高達30%。

另外,研究還發現,在不同學科、地域和期刊中LLM的使用也存在顯著差異。
在計算領域、生物信息學等學科中,由于行業技術日新月異,而研究者需要迅速掌握新技術,依賴LLM協助,約占20%。
在中國、韓國等非英語國家中,由于需要LLM輔助英語寫作,LLM使用率可達15%,相比之下,像英國、澳大利亞等英語國家的LLM使用率相對較低。
一些低門檻的開放獲取期刊,如MDPI旗下的《Sensors》,LLM可達24%,而像《Nature》、《Science》等頂刊只有6%到8%,研究人員推測,可能是由于前者審稿流程相對簡化,而作者需要依賴LLM快速成文。

所以原來不知不覺,LLM已經影響我們如此之深?
不夠透明的LLM使用
然而在2024年底,研究人員對arXiv已發表和已撤回的論文摘要再次進行統計分析,以月為單位計算詞匯頻率,并對每1萬篇摘要進行標準化處理。

研究發現,一些像“delve”、“intricate” 這類已經被明確指出是ChatGPT的常用詞匯,自2024年4月起使用頻率顯著下降。
而ChatGPT喜歡的另一些較為常見的詞匯,如“significant”、“additionally” ,使用率反而持續上升。

該現象表明,在使用LLM時,論文作者現在會主動調整輸出,避免使用典型的LLM特征詞,而一些常用詞因為本身普遍使用,且相關研究討論度較低,單獨出現也并不容易被發現。
這一點研究人員在實驗中也得以證明,他們分別通過以下兩種提示詞,讓GPT-4o-mini處理文本:
直接修改句子。
禁止使用LLM特征詞并修改句子。
對比原始文本和修改后的摘要,發現使用提示詞1后,LLM特征詞頻率上升,而使用提示詞2后,相關詞頻出現下降,不過并未完全消除,說明人為干預可以調整部分輸出,但無法完全規避。

再將原始摘要、LLM生成摘要、經過提示詞修改后的摘要依次投入Binoculars這一MGT(機器生成文本)檢測器中。
與詞頻分析得出的結果不同,檢測器并未顯示出明顯的真實摘要和LLM生成摘要的得分差異,但提示詞處理確實會在一定程度上影響MGT檢測器的結果。

所以MGT檢測器也并非完全準確,準確度受不同LLM模型和文本類型影響,且作者們現在使用特定提示詞修改文本,都讓檢測器難以準確判斷論文與LLM關系。
但研究人員也表示,未來他們將通過統計大量文本中常見詞匯的頻率來進一步估計AI對學術文獻的影響,而不僅僅只針對單個短文本進行檢測。
總而言之,LLM在科研工作中的影響力日益增長的同時,也亟需逐步完善其在學術論文中占比的量化分析,如何更好地讓AI參與學術寫作、AI使用的邊界在哪里等等,這些問題也許都值得我們重新思考。





京公網安備 11011402013531號