最近,一項引人關(guān)注的研究表明,大語言模型(LLM)在持續(xù)接觸低質(zhì)量數(shù)據(jù)后,會出現(xiàn)類似于人類的 “腦損傷” 現(xiàn)象,導(dǎo)致推理和記憶能力顯著下降。研究者發(fā)現(xiàn),AI 模型在接受高流行但低價值的社交媒體數(shù)據(jù)(如 Twitter)訓(xùn)練后,推理能力下降了23%,長上下文記憶能力下降了30%。而更令人擔(dān)憂的是,這種損傷是不可逆的,即使在后續(xù)用高質(zhì)量數(shù)據(jù)進行訓(xùn)練,模型也無法完全恢復(fù)到初始狀態(tài)。
圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney
這項研究由一組 AI 研究者進行,他們對低質(zhì)量數(shù)據(jù)進行了詳細定義,并與高質(zhì)量數(shù)據(jù)進行對比。他們將低質(zhì)量數(shù)據(jù)歸類為 “短文本、高熱度” 的內(nèi)容,特別是那些包含標(biāo)題黨和流行語的社交媒體帖子。研究表明,AI 模型接觸這些低質(zhì)量數(shù)據(jù)后,除了認知能力下降外,其人格特征也受到影響,表現(xiàn)出更多的自戀和精神病態(tài)特質(zhì)。
研究團隊選擇了四個不同的大語言模型進行訓(xùn)練,分別讓它們接受這兩類數(shù)據(jù)。研究過程中,模型的核心能力通過多種維度進行評估,包括推理能力、記憶能力和道德規(guī)范的遵循。結(jié)果顯示,“垃圾進垃圾出” 的原則確實適用于大語言模型,這一發(fā)現(xiàn)對未來的 AI 數(shù)據(jù)訓(xùn)練提出了新的警示。
研究人員認為,行業(yè)在訓(xùn)練 AI 時,必須關(guān)注數(shù)據(jù)的質(zhì)量,避免低質(zhì)量數(shù)據(jù)帶來的潛在風(fēng)險。此外,他們還建議在部署大模型時,應(yīng)進行認知能力的基準測試,以確保 AI 不因長期接觸低質(zhì)量數(shù)據(jù)而導(dǎo)致能力退化。
劃重點:





京公網(wǎng)安備 11011402013531號