![]()
本文第一作者是清華大學(xué)博士生張清杰,研究方向是大語言模型異常行為和可解釋性;本文通訊作者是清華大學(xué)邱寒副教授;其他作者來自清華大學(xué)、南洋理工大學(xué)和螞蟻集團(tuán)。
如果我們的教科書里包含大量的污言穢語,那么我們能學(xué)好語言嗎?這種荒唐的問題卻出現(xiàn)在最先進(jìn) ChatGPT 系列模型的學(xué)習(xí)過程中。
來自清華大學(xué)、南洋理工大學(xué)和螞蟻集團(tuán)的研究人員發(fā)現(xiàn),GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文詞表污染高達(dá) 46.6%,甚至同時(shí)包含「波*野結(jié)衣」、「*野結(jié)衣」、「*野結(jié)」、「*野」、「大發(fā)時(shí)時(shí)彩」、「大發(fā)快三」、「大發(fā)」等色情、賭博相關(guān)詞元(如下圖所示)。
研究團(tuán)隊(duì)對(duì) OpenAI 近期發(fā)布的 GPT-5 和 GPT-oss 的詞表也進(jìn)行了分析,它們?cè)~表的中文 token 沒有變化。
![]()
圖 1:GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文詞表污染高達(dá) 46.6%,主要涉及色情、賭博。
研究團(tuán)隊(duì)認(rèn)為,這種現(xiàn)象是由于來自互聯(lián)網(wǎng)數(shù)據(jù)的大模型預(yù)訓(xùn)練語料庫不可避免地包含污染內(nèi)容,導(dǎo)致在此之上構(gòu)建的大語言模型(LLM)詞表包含污染詞。那么,這些污染詞會(huì)如何影響 LLM 的性能?與污染數(shù)據(jù)的關(guān)系如何呢?
為了系統(tǒng)性研究 LLM 的中文詞表和數(shù)據(jù)污染問題,研究團(tuán)隊(duì)首先定義和分類了中文污染詞(Polluted Chinese tokens, PoC tokens),分析了它們對(duì) LLM 性能的影響;其次,為了高效識(shí)別不同 LLM 詞表里的 PoC tokens,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)中文污染詞檢測模型;最后,通過中文詞表污染有效估計(jì)數(shù)據(jù)污染,為污染數(shù)據(jù)治理提供輕量化解決方案。
![]()
論文標(biāo)題:Speculating LLMs’ Chinese Training Data Pollution from Their Tokens錄用會(huì)議:EMNLP 2025 Main項(xiàng)目網(wǎng)站:https://pollutedtokens.site/
值得注意的是,本項(xiàng)研究工作于 2025 年 5 月 29 日在清華大學(xué)基礎(chǔ)模型學(xué)術(shù)年會(huì)上由邱寒老師首次分享,并提出針對(duì) 10T 級(jí)的大語言模型訓(xùn)練語料庫的污染數(shù)據(jù)治理技術(shù)。
央視于 2025 年 8 月 17 日的新聞中也指出,AI 數(shù)據(jù)被污染存在風(fēng)險(xiǎn)。
![]()
中文污染詞的定義、分類和危害
該研究首先組建了包含 6 名跨學(xué)科領(lǐng)域?qū)<业臉?biāo)注團(tuán)隊(duì)(擁有哲學(xué)、社會(huì)學(xué)、中文語言學(xué)、計(jì)算機(jī)科學(xué)博士學(xué)位),對(duì)先進(jìn) ChatGPT 模型的中文詞表進(jìn)行污染詞標(biāo)注,總結(jié)出中文污染詞的定義和分類,為后續(xù)研究打下基礎(chǔ)。
定義:中文污染詞(Polluted Chinese tokens, PoC tokens)是存在于 LLM 詞表中,從主流中文語言學(xué)的角度編譯了不合法、不常見、不常用內(nèi)容的中文詞(多于 2 個(gè)字)。
分類:中文污染詞主要包括如下 5 個(gè)類別:
成人內(nèi)容,例如「波*野結(jié)衣」。在線賭博,例如「大發(fā)彩票網(wǎng)」。在線游戲,例如「傳奇私服」。在線視頻,例如「在線觀看」。奇怪內(nèi)容,例如「給主人留下些什么吧」。
參照這種定義和分類,專家標(biāo)注團(tuán)隊(duì)對(duì)先進(jìn) ChatGPT 模型的中文長詞(共計(jì) 1659 個(gè))進(jìn)行標(biāo)注,發(fā)現(xiàn)污染詞有 773 個(gè)(46.6%),其中成人內(nèi)容的污染詞最多,足足有 219 個(gè)(13.2%)。
進(jìn)一步,研究團(tuán)隊(duì)分析了中文污染詞的危害,發(fā)現(xiàn)即使是最先進(jìn)的 ChatGPT 模型(GPT-4o/o1/o3/4.5/4.1/o4-mini)在輸入中文污染詞后也會(huì)胡言亂語。如下圖所示,ChatGPT 不能理解甚至不能重復(fù)中文污染詞,輸入一個(gè)中文污染詞甚至?xí)敵隽硪粋€(gè)中文污染詞。
如下表所示,與輸入正常中文詞相比,輸入中文污染詞會(huì)顯著降低 ChatGPT 的回答質(zhì)量,在解釋和重復(fù)任務(wù)上有約 50% 的性能損失。
![]()
表 1:輸入中文污染詞會(huì)造成 ChatGPT 在解釋和重復(fù)任務(wù)上約 50% 的性能損失。
為了初步解釋這一現(xiàn)象,研究團(tuán)隊(duì)分析了開源預(yù)訓(xùn)練語料庫(例如 mC4)中的中文網(wǎng)頁,發(fā)現(xiàn)多種中文污染詞聚集于一些網(wǎng)頁的頭部和尾部(如下圖所示)。這些低質(zhì)量語料使得 LLM 錯(cuò)誤理解了不同中文污染詞之間的相關(guān)性,且沒有在后訓(xùn)練階段被矯正回來,導(dǎo)致模型在推理時(shí)無法理解也無法重復(fù)中文污染詞。
![]()
圖 3:開源預(yù)訓(xùn)練語料庫 mC4 的中文網(wǎng)頁:中文污染詞聚集于一些網(wǎng)頁的頭部和尾部。
污染檢測:自動(dòng)化識(shí)別中文污染詞
為了將中文污染詞的識(shí)別和分類擴(kuò)展到更多的 LLM,研究團(tuán)隊(duì)微調(diào)中文能力強(qiáng)且污染較少的 GLM-4-32B,構(gòu)建自動(dòng)化中文污染詞識(shí)別模型。
由于中文污染詞通常是晦澀難懂的(例如「青青草」看似正常,但 Google 搜索結(jié)果與互聯(lián)網(wǎng)色情平臺(tái)有關(guān)),即使是中文語言學(xué)專家也無法判斷中文詞是否污染、屬于哪一種污染類別。
因此,研究團(tuán)隊(duì)為識(shí)別模型設(shè)計(jì)網(wǎng)絡(luò)檢索機(jī)制,對(duì)每一個(gè)待檢測中文詞返回 10 條 Google 檢索信息,作為判斷是否為污染詞的背景信息。并且,微調(diào)以專家標(biāo)注結(jié)果作為真值標(biāo)簽,最終使模型達(dá)到 97.3% 的識(shí)別正確率。
如下圖所示,研究團(tuán)隊(duì)用識(shí)別模型對(duì) 23 個(gè)主流 LLM 的 9 個(gè)詞表進(jìn)行了中文污染詞檢測。不只有先進(jìn)的 ChatGPT 系列模型,中文污染詞在其他 LLM 詞表中也存在。其中成人內(nèi)容、在線賭博、奇怪內(nèi)容占了大多數(shù)。
然而,上一代 ChatGPT 模型(GPT-4/4-turbo/3.5)包含很少量的表征多個(gè)中文字的 token,其中卻不包括中文污染詞。
![]()
圖 4:Qwen2/2.5/3 和 GLM4 的部分中文污染詞。
污染追蹤:由詞表污染估計(jì)數(shù)據(jù)污染
由于詞表污染是訓(xùn)練數(shù)據(jù)污染的反映,研究團(tuán)隊(duì)進(jìn)一步設(shè)計(jì)污染追蹤方案,通過 LLM 的詞表反向估計(jì)訓(xùn)練數(shù)據(jù)的污染情況,為海量數(shù)據(jù)治理提供輕量化方案。
LLM 的詞表構(gòu)建大多基于 BPE 算法。簡單來說,BPE 算法對(duì)語料庫里的詞頻進(jìn)行統(tǒng)計(jì),并將出現(xiàn)頻率越大的詞放在詞表越靠前的位置,即詞 ID 越小。由詞表污染估計(jì)數(shù)據(jù)污染即為對(duì) BPE 算法做逆向,然而,逆向 BPE 的結(jié)果不唯一,因?yàn)橐粋€(gè)詞 ID 并不對(duì)應(yīng)于一個(gè)確定的詞頻,只能給出詞頻范圍的估計(jì)。
因此,研究團(tuán)隊(duì)結(jié)合經(jīng)典語言學(xué)的 Zipf 分布和上下確界理論,在開源語料庫上用分位數(shù)回歸擬合出詞 ID-詞頻的經(jīng)驗(yàn)估計(jì)。
如下圖所示,該經(jīng)驗(yàn)估計(jì)有效擬合了詞 ID-詞頻分布的上下界,并且落于理論上下確界之間,因此是一種有效的污染追蹤方案。
![]()
圖 5:詞 ID-詞頻的經(jīng)驗(yàn)估計(jì)有效擬合了分布的上下界,并且落于理論上下確界之間。
基于這種經(jīng)驗(yàn)估計(jì),研究團(tuán)隊(duì)估計(jì)了開源語料庫 mC4 的數(shù)據(jù)污染,并與真值做比較。如下圖所示,該估計(jì)方案對(duì)整體數(shù)據(jù)污染的估計(jì)是比較接近的,而對(duì)于具體污染類別的估計(jì)存在優(yōu)化空間,這是因?yàn)榫唧w污染類別的組分更少,其分布特征在海量語料庫的統(tǒng)計(jì)中被削弱了。
![]()
圖 6:開源語料庫 mC4 的數(shù)據(jù)污染估計(jì)及與真值的比較。
進(jìn)一步,研究團(tuán)隊(duì)估計(jì)了 GPT-4o 詞表里出現(xiàn)的中文污染詞「波*野結(jié)衣」在訓(xùn)練語料里的污染情況。結(jié)果顯示,「波*野結(jié)衣」相關(guān)頁面在 GPT-4o 中文訓(xùn)練語料的占比高達(dá) 0.5%,甚至是中文常用詞「您好」的 2.6 倍。
由于 GPT-4o 的中文訓(xùn)練語料沒有開源,為了驗(yàn)證這種估計(jì),研究團(tuán)隊(duì)在無污染的開源數(shù)據(jù)集上按照 0.5% 的比例混合「波*野結(jié)衣」相關(guān)頁面,并用 BPE 算法構(gòu)建詞表以模擬 GPT-4o 構(gòu)建詞表的過程。如下圖所示,該比例幾乎準(zhǔn)確復(fù)現(xiàn)了 4 個(gè)相關(guān)詞「*野」、「*野結(jié)」、「*野結(jié)衣」、「波*野結(jié)衣」在 GPT-4o 詞表里的詞 ID。
![]()
圖 7:按照 0.5% 的比例混合「波*野結(jié)衣」相關(guān)頁面可以在開源語料庫上復(fù)現(xiàn)出 4 個(gè)相關(guān)詞「*野」、「*野結(jié)」、「*野結(jié)衣」、「波*野結(jié)衣」在 GPT-4o 詞表里的詞 ID。
未來展望:污染數(shù)據(jù)是否百弊而無一利?
盡管污染語料會(huì)導(dǎo)致大語言模型的詞表里混入「污言穢語」,那么污染數(shù)據(jù)是否百弊而無一利呢?哈佛大學(xué)于 ICML 2025 發(fā)表的文章《When Bad Data Leads to Good Models》指出,預(yù)訓(xùn)練中適量的污染數(shù)據(jù)可作為對(duì)齊模型的催化劑。
該研究基于如下圖所示的理論假設(shè):當(dāng)預(yù)訓(xùn)練中有害數(shù)據(jù)過少時(shí),有害表征會(huì)與其他表征混雜在一起,不易區(qū)分;反之,當(dāng)有害數(shù)據(jù)適量時(shí),有害表征更容易被區(qū)分。
![]()
圖 8:預(yù)訓(xùn)練包含適量有害數(shù)據(jù) vs 極少有害數(shù)據(jù):前者更易區(qū)分有害表征向量。
進(jìn)一步,研究團(tuán)隊(duì)按照 0-25% 不同有害數(shù)據(jù)比例預(yù)訓(xùn)練 Olmo-1B 模型,并在 inference 階段識(shí)別并偏轉(zhuǎn)有害表征,從而抑制有害內(nèi)容輸出。實(shí)驗(yàn)結(jié)果顯示適量(10%)有害數(shù)據(jù)預(yù)訓(xùn)練的模型在應(yīng)用抑制方法后的有害性最低,甚至低于不包含有害數(shù)據(jù)的預(yù)訓(xùn)練模型。
水至清則無魚,適量的污染數(shù)據(jù)有助于模型的安全對(duì)齊。在促進(jìn)安全對(duì)齊和預(yù)防過度污染間保持平衡,是未來的污染數(shù)據(jù)研究值得探索的方向。
總結(jié)
最新 ChatGPT 系列模型的《新華詞典》里有 46.6% 都是「污言穢語」,并且輸入這些「污言穢語」會(huì)讓模型胡言亂語。基于這一現(xiàn)象,研究團(tuán)隊(duì)系統(tǒng)性給出了此類中文污染詞的定義和分類,構(gòu)建了中文污染詞自動(dòng)識(shí)別模型,并基于詞表污染估計(jì)訓(xùn)練語料污染。綜上所述,該研究期待為 LLM 海量訓(xùn)練語料的治理提供輕量化的方案。





京公網(wǎng)安備 11011402013531號(hào)