偷數據的AI公司被抓到了

IP屬地中國·北京 編輯：柳晴雪量子位 時間：2025-08-13 16:21:30

聞樂發自凹非寺
量子位 | 公眾號 QbitAI
AI還在想盡辦法搜刮互聯網數據，這一回是偷偷利用互聯網檔案館？！

最近，Reddit平臺發現，AI公司正利用Wayback Machine的存檔，巧妙繞過常規的數據獲取限制，偷偷扒取大量數據用于模型訓練
互聯網檔案館的Wayback Machine是公益性的數字存檔工具，旨在保存網頁歷史版本。
AI公司發現通過借助Wayback Machine開放性的特點抓取Reddit的歷史數據，既無需遵守Reddit的付費、合規協議等政策，又能獲取訓練所需的大量內容。
于是，互聯網檔案館就成了AI公司的“最佳數據后門”。
Reddit堅決抵制數據濫用
前情提要，此前Reddit為保護數據權益，對AI公司的直接抓取數據行為設置了嚴格限制。
若公司愿意付費則愿意提供數據，比如Reddit與谷歌達成數據交易，僅向這種付費合作方開放數據，還對搜索引擎爬取數據設置付費門檻。

但對于未經許可的數據抓取行為，尤其是AI訓練濫用的情況，Reddit堅決抵制。
這也是其2023年進行API更改的原因：由于AI公司濫用API進行數據抓取用于模型訓練，于是它們調整了API政策導致部分第三方應用關閉。
此外，Reddit還與OpenAI有合作，然而在6月，Reddit卻起訴了Anthropic。
原因是Anthropic在宣稱停止抓取數據后仍在Reddit上抓取。
這正是為啥AI公司開始想歪招了——
Internet Archive即互聯網檔案館，它是一個非營利性數字圖書館，致力于提供數字資料的永久性免費存儲及獲取服務。

它的數據一部分由公眾上傳，大部分由自帶的網絡爬蟲自動搜集，盡可能保存公開的網頁信息。
Wayback Machine是Internet Archive最廣為人知的服務，能抓取并保存大量網頁，用戶借助它可查看網頁的歷史快照。
它自1996年開始緩存網頁，在2001年推出時已存檔超100億個頁面。
Wayback Machine作為一個公益性的數字存檔工具，本身就具有開放性，但這也給了部分AI公司可乘之機。
AI公司發現通過Wayback Machine抓取Reddit的歷史數據，既無需遵守Reddit的平臺政策（如付費、合規協議），又能獲取訓練所需的大量內容，于是就利用這一漏洞開始了違規“曲線獲取數據”的行為。
這些AI公司的爬蟲程序在Wayback Machine的存檔中肆意穿梭，抓取Reddit上的帖子、評論、用戶資料等關鍵信息。
這種“曲線抓取數據”的行為，不僅侵犯了平臺的權益和用戶的隱私，還打破了數據獲取與使用的規則平衡。

Reddit發言人Tim Rathschmidt透露，盡管互聯網檔案館旨在開放網絡，但AI公司的此類抓取行為嚴重違反了平臺政策，危及用戶隱私，還可能導致已刪除內容的泄露。
Reddit并非唯一受害者，Facebook（現meta）、Twitter（現X）等均曾明確限制第三方爬蟲抓取用戶內容，尤其禁止將數據用于AI訓練，但仍有AI公司試圖通過緩存站點、鏡像網站等間接渠道獲取數據。
面對這一亂象，Reddit已經宣布限制Wayback Machine對其內容進行索引，僅允許抓取主頁，帖子詳情、評論及用戶資料等頁面均被禁止訪問
為此，Wayback Machine的負責人Mark Graham在接受采訪時表示：
我們與Reddit有著長期的合作關系，并且將繼續就此事進行討論。
實際上不只Wayback Machine，有網友發現Reddit對任何非住宅IP都有數據封鎖。

但也有人認為這是Reddit是試圖通過數據交易獲取利益，但一手交錢一手交數據看上去也挺公平的……

不管怎么說，數據所有權、使用邊界與AI訓練需求之間的沖突正在悄悄升級。

[1]https://www.theverge.com/news/757538/reddit-internet-archive-wayback-machine-block-limit
[2]https://news.ycombinator.com/item?id=44866698
— 完 —

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

從詩中“配角”到科研“明星”，浮萍正在顛覆未來農業

大眾中國前CEO評小米汽車！

全國首發！重慶發布L3級自動駕駛機動車專用正式號牌！

無人機、機器人沒信號也能通信，科學家探索全新量子糾纏技術框架

人工智能新戰場，在10月后出現了

羅永浩：網速問題已解決，新微信會屏蔽所有媒體人

全站最新

從詩中“配角”到科研“明星”，浮萍正在顛覆未來農業

大眾中國前CEO評小米汽車！

全國首發！重慶發布L3級自動駕駛機動車專用正式號牌！

無人機、機器人沒信號也能通信，科學家探索全新量子糾纏技術框架

熱門推薦

馬斯克成全球首位超7000億美元富豪

谷歌起訴爬蟲公司SerpApi

全球首款2nm手機芯片誕生

飛豬：元旦假期客單價提升10%，出境游強勁增長

從詩中“配角”到科研“明星”，浮萍正在顛覆未來農業

大眾中國前CEO評小米汽車！

全國首發！重慶發布L3級自動駕駛機動車專用正式號牌！

無人機、機器人沒信號也能通信，科學家探索全新量子糾纏技術框架

芯片，重磅突發！全球首款！

人工智能新戰場，在10月后出現了

羅永浩：網速問題已解決，新微信會屏蔽所有媒體人

OpenAI、xAI打破硅谷鐵律，AI人才年薪破億成常態

AI教父Hinton首爆十年前拍賣：我早已內定谷歌必贏！

AI交易暫時企穩，圣誕行情值得期待否？

世貿組織預測：人工智能有望推動全球貿易增長近40%