快科技10月19日消息,Anthropic、英國(guó)AI安全研究所和艾倫圖靈研究所的最新聯(lián)合研究發(fā)現(xiàn):大語(yǔ)言模型(如Claude、ChatGPT和Gemini等)對(duì)數(shù)據(jù)中毒攻擊的抵抗力遠(yuǎn)低于預(yù)期,攻擊者僅需極少量的惡意文件就能在模型中植入“后門(mén)”。
這項(xiàng)研究針對(duì)參數(shù)規(guī)模從600萬(wàn)到130億不等的AI模型進(jìn)行了訓(xùn)練測(cè)試,研究人員發(fā)現(xiàn),無(wú)論模型規(guī)模多大,攻擊者只需插入大約250份被污染的文件,就能成功操控模型的響應(yīng)方式。這一發(fā)現(xiàn)顛覆了以往認(rèn)為模型越大攻擊難度越高的傳統(tǒng)觀念。
對(duì)于測(cè)試中最大的130億參數(shù)模型,250份惡意文件僅占總訓(xùn)練數(shù)據(jù)的0.00016%,然而當(dāng)模型遇到特定的“觸發(fā)短語(yǔ)”時(shí),它就會(huì)按照被植入的后門(mén)行為,輸出無(wú)意義的文本,而非正常的連貫回應(yīng)。
研究人員還嘗試通過(guò)持續(xù)的“干凈數(shù)據(jù)”訓(xùn)練來(lái)消除后門(mén),結(jié)果后門(mén)仍然在一定程度上持續(xù)存在。
雖然本次研究主要針對(duì)簡(jiǎn)單的后門(mén)行為,且測(cè)試模型規(guī)模尚未達(dá)到商業(yè)旗艦級(jí)水平,但研究人員呼吁業(yè)界必須改變安全實(shí)踐。

如需請(qǐng)務(wù)必注明出處:快科技
責(zé)任編輯:黑白





京公網(wǎng)安備 11011402013531號(hào)