聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
AI還在想盡辦法搜刮互聯網數據,這一回是偷偷利用互聯網檔案館?!
![]()
最近,Reddit平臺發現,AI公司正利用Wayback Machine的存檔,巧妙繞過常規的數據獲取限制,偷偷扒取大量數據用于模型訓練
互聯網檔案館的Wayback Machine是公益性的數字存檔工具,旨在保存網頁歷史版本。
AI公司發現通過借助Wayback Machine開放性的特點抓取Reddit的歷史數據,既無需遵守Reddit的付費、合規協議等政策,又能獲取訓練所需的大量內容。
于是,互聯網檔案館就成了AI公司的“最佳數據后門”。
Reddit堅決抵制數據濫用
前情提要,此前Reddit為保護數據權益,對AI公司的直接抓取數據行為設置了嚴格限制。
若公司愿意付費則愿意提供數據,比如Reddit與谷歌達成數據交易,僅向這種付費合作方開放數據,還對搜索引擎爬取數據設置付費門檻。
![]()
但對于未經許可的數據抓取行為,尤其是AI訓練濫用的情況,Reddit堅決抵制。
這也是其2023年進行API更改的原因:由于AI公司濫用API進行數據抓取用于模型訓練,于是它們調整了API政策導致部分第三方應用關閉。
此外,Reddit還與OpenAI有合作,然而在6月,Reddit卻起訴了Anthropic。
原因是Anthropic在宣稱停止抓取數據后仍在Reddit上抓取。
這正是為啥AI公司開始想歪招了——
Internet Archive即互聯網檔案館,它是一個非營利性數字圖書館,致力于提供數字資料的永久性免費存儲及獲取服務。
![]()
它的數據一部分由公眾上傳,大部分由自帶的網絡爬蟲自動搜集,盡可能保存公開的網頁信息。
Wayback Machine是Internet Archive最廣為人知的服務,能抓取并保存大量網頁,用戶借助它可查看網頁的歷史快照。
它自1996年開始緩存網頁,在2001年推出時已存檔超100億個頁面。
Wayback Machine作為一個公益性的數字存檔工具,本身就具有開放性,但這也給了部分AI公司可乘之機。
AI公司發現通過Wayback Machine抓取Reddit的歷史數據,既無需遵守Reddit的平臺政策(如付費、合規協議),又能獲取訓練所需的大量內容,于是就利用這一漏洞開始了違規“曲線獲取數據”的行為。
這些AI公司的爬蟲程序在Wayback Machine的存檔中肆意穿梭,抓取Reddit上的帖子、評論、用戶資料等關鍵信息。
這種“曲線抓取數據”的行為,不僅侵犯了平臺的權益和用戶的隱私,還打破了數據獲取與使用的規則平衡。
![]()
Reddit發言人Tim Rathschmidt透露,盡管互聯網檔案館旨在開放網絡,但AI公司的此類抓取行為嚴重違反了平臺政策,危及用戶隱私,還可能導致已刪除內容的泄露。
Reddit并非唯一受害者,Facebook(現meta)、Twitter(現X)等均曾明確限制第三方爬蟲抓取用戶內容,尤其禁止將數據用于AI訓練,但仍有AI公司試圖通過緩存站點、鏡像網站等間接渠道獲取數據。
面對這一亂象,Reddit已經宣布限制Wayback Machine對其內容進行索引,僅允許抓取主頁,帖子詳情、評論及用戶資料等頁面均被禁止訪問
為此,Wayback Machine的負責人Mark Graham在接受采訪時表示:
我們與Reddit有著長期的合作關系,并且將繼續就此事進行討論。
實際上不只Wayback Machine,有網友發現Reddit對任何非住宅IP都有數據封鎖。
![]()
但也有人認為這是Reddit是試圖通過數據交易獲取利益,但一手交錢一手交數據看上去也挺公平的……
![]()
不管怎么說,數據所有權、使用邊界與AI訓練需求之間的沖突正在悄悄升級。
[1]https://www.theverge.com/news/757538/reddit-internet-archive-wayback-machine-block-limit
[2]https://news.ycombinator.com/item?id=44866698
— 完 —





京公網安備 11011402013531號