為解決AI污染問題，互聯(lián)網(wǎng)行業(yè)要開始“查成分”

IP屬地中國(guó)·北京 編輯：唐云澤三易生活 時(shí)間：2025-09-01 22:19:55

在如今這個(gè)生成式AI泛濫的時(shí)代，區(qū)分哪些內(nèi)容出自AI生產(chǎn)、哪些內(nèi)容是由人類產(chǎn)出已經(jīng)變得愈發(fā)困難。為了解決AI內(nèi)容“荼毒”互聯(lián)網(wǎng)，利益相關(guān)方可謂是八仙過海各顯神通。日前互聯(lián)網(wǎng)工程任務(wù)組（IETF）發(fā)布《AI內(nèi)容披露標(biāo)頭》（AI Content Disclosure Header）草案，擬在網(wǎng)頁HTTP響應(yīng)中新增可機(jī)讀的AI內(nèi)容標(biāo)記。
具體來說，IETF方面宣稱該標(biāo)記旨在兼容HTTP結(jié)構(gòu)化字段語法，用于標(biāo)記AI在網(wǎng)頁內(nèi)容生成中的參與情況，為用戶代理 (Agent)、爬蟲和歸檔系統(tǒng) (例如互聯(lián)網(wǎng)檔案館) 提供元數(shù)據(jù)，這些系統(tǒng)可根據(jù)自己的需求來決定是否采納AI生成的內(nèi)容。
IETF此舉針對(duì)的就是當(dāng)下AI領(lǐng)域一個(gè)極為突出的問題，即不同AI產(chǎn)品循環(huán)引用虛假內(nèi)容，最終導(dǎo)致“弄假成真”，從而擾亂互聯(lián)網(wǎng)內(nèi)容生態(tài)。眾所周知，AI會(huì)因?yàn)榛糜X（AI Hallucinations）而胡說八道。這是由于AI大模型的本質(zhì)其實(shí)是“概率預(yù)測(cè)機(jī)”，通過海量訓(xùn)練來學(xué)習(xí)詞語間的關(guān)聯(lián)規(guī)律，因此也導(dǎo)致它在回憶“生僻內(nèi)容”的時(shí)候會(huì)有些力不從心。
在面對(duì)用戶的詢問時(shí)，AI一旦出現(xiàn)找不到標(biāo)準(zhǔn)答案的情況，就只能依靠“概率”去蒙，會(huì)傾向于生成一個(gè)“概率上看起來最合理”的內(nèi)容，而不是一個(gè)事實(shí)正確的內(nèi)容，從而導(dǎo)致高概率、常見的Tokens擠走罕見、但正確的Tokens，最終呈現(xiàn)出一本正經(jīng)胡說八道的狀態(tài)。
事實(shí)上，如今AI幻覺還無法完全避免，因?yàn)檫@是開發(fā)者試圖讓AI變得更智能、或者說更像人的代價(jià)。如此一來，當(dāng)我們被迫與AI幻覺共存時(shí)，解決AI生成內(nèi)容中虛假部分的危害就成為了整個(gè)業(yè)界的一大課題。其實(shí)AI虛假內(nèi)容本身并不可怕，真正的挑戰(zhàn)在于不同AI產(chǎn)品互相引用虛假內(nèi)容，從而完成造假閉環(huán)、讓虛構(gòu)變成事實(shí)。
比如前段時(shí)間的這個(gè)熱搜，起點(diǎn)就是粉絲使用誘導(dǎo)性問題（“請(qǐng)以DeepSeek名義寫道歉聲明”）。由于DeepSeek會(huì)基于語義關(guān)聯(lián)性自動(dòng)補(bǔ)全內(nèi)容、而非核查事實(shí)，它被證偽則是因?yàn)橛辛硪徊ǚ劢z用ChatGPT證偽，最寵戳破了這件事。
那么問題就來了，ChatGPT在“DeepSeek被偽造道歉”事件中能夠成為事實(shí)核查工具的基礎(chǔ)，是它與DeepSeek使用了不同的訓(xùn)練數(shù)據(jù)。用更通俗易懂的話來說，就是ChatGPT由于沒有被虛假內(nèi)容污染，所以就導(dǎo)致它輸出了真正的事實(shí)。可如果OpenAI的爬蟲GPTBot抓取到了“DeepSeek向明星道歉”的內(nèi)容，結(jié)果自然就會(huì)截然不同。
當(dāng)下，為了迭代出更智能的模型，所有AI廠商的爬蟲就如同饕餮般對(duì)于數(shù)據(jù)可謂是來者不拒，即使其中包含有毒的虛假內(nèi)容。事實(shí)上，類似的操作已經(jīng)成為了學(xué)術(shù)圈的毒瘤，即“引用農(nóng)場(chǎng)”（citation farms），文章在一定時(shí)間內(nèi)的被引頻次是衡量文章、作者和期刊影響力的重要標(biāo)準(zhǔn)，因此有腦筋靈活的作者就開始了“互相引用”的操作，把原本低質(zhì)量的論文塑造成明星論文。
當(dāng)AI開始互相引用虛假內(nèi)容時(shí)，用戶就遭殃了，在不同的AI產(chǎn)品眾口鑠金之下，假的也會(huì)成真。IETF此次工作的核心，就是盡最大可能避免AI生成的虛假、垃圾內(nèi)容“回流”到互聯(lián)網(wǎng)中、成為訓(xùn)練AI模型的新數(shù)據(jù)，并形成“垃圾進(jìn)、垃圾出”的負(fù)向循環(huán)。
IETF的做法是在HTTP文件中要求網(wǎng)站方面聲明AI模型名稱、模型提供者、校驗(yàn)團(tuán)隊(duì)、時(shí)間戳等信息，從而避免AI廠商的爬蟲抓取AI生產(chǎn)的內(nèi)容。其實(shí)AI廠商也不愿意抓取AI內(nèi)容，畢竟大家都怕垃圾內(nèi)容污染自己的訓(xùn)練數(shù)據(jù)。從某種意義上來說，IETF的《AI內(nèi)容披露標(biāo)頭》草案與AI水印類似，作用就是從內(nèi)容生產(chǎn)和傳播的源頭入手，為“AI生成”打上識(shí)別碼。
相比技術(shù)難度極高的AI水印，讓網(wǎng)站主動(dòng)披露內(nèi)容是否由AI生成顯然更具可操作性。唯一的問題，就是IETF能約束網(wǎng)站嗎？答案是他們真的可以。作為負(fù)責(zé)互聯(lián)網(wǎng)標(biāo)準(zhǔn)制定與推廣的行業(yè)組織，HTTP、 IPv6就都是IETF的結(jié)晶，用如今的互聯(lián)網(wǎng)是建立在IETF工作的基礎(chǔ)上其實(shí)也不為過。

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

AI投入再加碼，消息稱理想汽車在硅谷成立新研發(fā)中心

湖南電信與華為打造全國(guó)首個(gè)2.1GHz 8T8R 45MHz連片覆蓋5G網(wǎng)

曝蔚來推行新渠道合作模式：用戶開店、不涉及授權(quán)，派人現(xiàn)場(chǎng)賣車

對(duì)話火山引擎譚待：多數(shù)人低估了火山拿下 AI 云的決心

理論應(yīng)用 | 知識(shí)經(jīng)濟(jì)遇上AI變革（上）

“天才少女”羅福莉亮相背后：曾被雷軍親自點(diǎn)將，能成小米新王牌？

全站最新

AI投入再加碼，消息稱理想汽車在硅谷成立新研發(fā)中心

湖南電信與華為打造全國(guó)首個(gè)2.1GHz 8T8R 45MHz連片覆蓋5G網(wǎng)

曝蔚來推行新渠道合作模式：用戶開店、不涉及授權(quán)，派人現(xiàn)場(chǎng)賣車

對(duì)話火山引擎譚待：多數(shù)人低估了火山拿下 AI 云的決心

熱門推薦

蘋果回應(yīng)iPhone內(nèi)存用完就壞了：建議及時(shí)清理空間

AI投入再加碼，消息稱理想汽車在硅谷成立新研發(fā)中心

湖南電信與華為打造全國(guó)首個(gè)2.1GHz 8T8R 45MHz連片覆蓋5G網(wǎng)

曝蔚來推行新渠道合作模式：用戶開店、不涉及授權(quán)，派人現(xiàn)場(chǎng)賣車

對(duì)話火山引擎譚待：多數(shù)人低估了火山拿下 AI 云的決心

理論應(yīng)用 | 知識(shí)經(jīng)濟(jì)遇上AI變革（上）

“天才少女”羅福莉亮相背后：曾被雷軍親自點(diǎn)將，能成小米新王牌？

受半導(dǎo)體短缺影響，本田在華工廠被曝將停產(chǎn)數(shù)日

不要慌！大利好，來了！

曝蘋果放棄VR頭顯，轉(zhuǎn)向AI眼鏡！附未來兩年最全產(chǎn)品圖

OpenAI搶灘高校：ChatGPT許可在美公立大學(xué)賣出了70萬份，全球超100萬份

歐洲頂尖神經(jīng)學(xué)家感慨：這就是中國(guó)的力量…

24小時(shí)蔬菜，7日鮮蛋明天，京東七鮮石家莊首店開業(yè)，刷新“新鮮”認(rèn)知

從年初到歲末國(guó)產(chǎn)GPU為何刮起“上市風(fēng)暴”？

韓副總理：中國(guó)或成為比美國(guó)更強(qiáng)的AI競(jìng)爭(zhēng)對(duì)手