在如今這個(gè)生成式AI泛濫的時(shí)代,區(qū)分哪些內(nèi)容出自AI生產(chǎn)、哪些內(nèi)容是由人類產(chǎn)出已經(jīng)變得愈發(fā)困難。為了解決AI內(nèi)容“荼毒”互聯(lián)網(wǎng),利益相關(guān)方可謂是八仙過海各顯神通。日前互聯(lián)網(wǎng)工程任務(wù)組(IETF)發(fā)布《AI內(nèi)容披露標(biāo)頭》(AI Content Disclosure Header)草案,擬在網(wǎng)頁HTTP響應(yīng)中新增可機(jī)讀的AI內(nèi)容標(biāo)記。
具體來說,IETF方面宣稱該標(biāo)記旨在兼容HTTP結(jié)構(gòu)化字段語法,用于標(biāo)記AI在網(wǎng)頁內(nèi)容生成中的參與情況,為用戶代理 (Agent)、爬蟲和歸檔系統(tǒng) (例如互聯(lián)網(wǎng)檔案館) 提供元數(shù)據(jù),這些系統(tǒng)可根據(jù)自己的需求來決定是否采納AI生成的內(nèi)容。
IETF此舉針對(duì)的就是當(dāng)下AI領(lǐng)域一個(gè)極為突出的問題,即不同AI產(chǎn)品循環(huán)引用虛假內(nèi)容,最終導(dǎo)致“弄假成真”,從而擾亂互聯(lián)網(wǎng)內(nèi)容生態(tài)。眾所周知,AI會(huì)因?yàn)榛糜X(AI Hallucinations)而胡說八道。這是由于AI大模型的本質(zhì)其實(shí)是“概率預(yù)測(cè)機(jī)”,通過海量訓(xùn)練來學(xué)習(xí)詞語間的關(guān)聯(lián)規(guī)律,因此也導(dǎo)致它在回憶“生僻內(nèi)容”的時(shí)候會(huì)有些力不從心。
在面對(duì)用戶的詢問時(shí),AI一旦出現(xiàn)找不到標(biāo)準(zhǔn)答案的情況,就只能依靠“概率”去蒙,會(huì)傾向于生成一個(gè)“概率上看起來最合理”的內(nèi)容,而不是一個(gè)事實(shí)正確的內(nèi)容,從而導(dǎo)致高概率、常見的Tokens擠走罕見、但正確的Tokens,最終呈現(xiàn)出一本正經(jīng)胡說八道的狀態(tài)。
事實(shí)上,如今AI幻覺還無法完全避免,因?yàn)檫@是開發(fā)者試圖讓AI變得更智能、或者說更像人的代價(jià)。如此一來,當(dāng)我們被迫與AI幻覺共存時(shí),解決AI生成內(nèi)容中虛假部分的危害就成為了整個(gè)業(yè)界的一大課題。其實(shí)AI虛假內(nèi)容本身并不可怕,真正的挑戰(zhàn)在于不同AI產(chǎn)品互相引用虛假內(nèi)容,從而完成造假閉環(huán)、讓虛構(gòu)變成事實(shí)。
比如前段時(shí)間的這個(gè)熱搜,起點(diǎn)就是粉絲使用誘導(dǎo)性問題(“請(qǐng)以DeepSeek名義寫道歉聲明”)。由于DeepSeek會(huì)基于語義關(guān)聯(lián)性自動(dòng)補(bǔ)全內(nèi)容、而非核查事實(shí),它被證偽則是因?yàn)橛辛硪徊ǚ劢z用ChatGPT證偽,最寵戳破了這件事。
那么問題就來了,ChatGPT在“DeepSeek被偽造道歉”事件中能夠成為事實(shí)核查工具的基礎(chǔ),是它與DeepSeek使用了不同的訓(xùn)練數(shù)據(jù)。用更通俗易懂的話來說,就是ChatGPT由于沒有被虛假內(nèi)容污染,所以就導(dǎo)致它輸出了真正的事實(shí)。可如果OpenAI的爬蟲GPTBot抓取到了“DeepSeek向明星道歉”的內(nèi)容,結(jié)果自然就會(huì)截然不同。

當(dāng)下,為了迭代出更智能的模型,所有AI廠商的爬蟲就如同饕餮般對(duì)于數(shù)據(jù)可謂是來者不拒,即使其中包含有毒的虛假內(nèi)容。事實(shí)上,類似的操作已經(jīng)成為了學(xué)術(shù)圈的毒瘤,即“引用農(nóng)場(chǎng)”(citation farms),文章在一定時(shí)間內(nèi)的被引頻次是衡量文章、作者和期刊影響力的重要標(biāo)準(zhǔn),因此有腦筋靈活的作者就開始了“互相引用”的操作,把原本低質(zhì)量的論文塑造成明星論文。
當(dāng)AI開始互相引用虛假內(nèi)容時(shí),用戶就遭殃了,在不同的AI產(chǎn)品眾口鑠金之下,假的也會(huì)成真。IETF此次工作的核心,就是盡最大可能避免AI生成的虛假、垃圾內(nèi)容“回流”到互聯(lián)網(wǎng)中、成為訓(xùn)練AI模型的新數(shù)據(jù),并形成“垃圾進(jìn)、垃圾出”的負(fù)向循環(huán)。
IETF的做法是在HTTP文件中要求網(wǎng)站方面聲明AI模型名稱、模型提供者、校驗(yàn)團(tuán)隊(duì)、時(shí)間戳等信息,從而避免AI廠商的爬蟲抓取AI生產(chǎn)的內(nèi)容。其實(shí)AI廠商也不愿意抓取AI內(nèi)容,畢竟大家都怕垃圾內(nèi)容污染自己的訓(xùn)練數(shù)據(jù)。從某種意義上來說,IETF的《AI內(nèi)容披露標(biāo)頭》草案與AI水印類似,作用就是從內(nèi)容生產(chǎn)和傳播的源頭入手,為“AI生成”打上識(shí)別碼。
相比技術(shù)難度極高的AI水印,讓網(wǎng)站主動(dòng)披露內(nèi)容是否由AI生成顯然更具可操作性。唯一的問題,就是IETF能約束網(wǎng)站嗎?答案是他們真的可以。作為負(fù)責(zé)互聯(lián)網(wǎng)標(biāo)準(zhǔn)制定與推廣的行業(yè)組織,HTTP、 IPv6就都是IETF的結(jié)晶,用如今的互聯(lián)網(wǎng)是建立在IETF工作的基礎(chǔ)上其實(shí)也不為過。





京公網(wǎng)安備 11011402013531號(hào)