IT之家 8 月 5 日消息,當地時間周一,Cloudflare 發布了一份報告,指控 AI 初創公司 Perplexity 在網站已明確標注禁止 AI 抓取的情況下仍進行抓取,并通過改變身份標識規避攔截規則。
![]()
報告顯示,Perplexity 忽略網站 robots.txt 文件(用于告知搜索引擎和 AI 公司哪些頁面可供索引)及針對其已知爬蟲的攔截規則,調整 UA 和 ASN 信息,通過更換身份和網絡地址等手段繞過屏蔽并抓取大量內容。
![]()
Cloudflare 稱,他們通過“機器學習與網絡信號相結合”的方式,識別出了 Perplexity 爬蟲的特征,其行為涉及“數萬個域名,每天數百萬次請求”。
針對指控,Perplexity 發言人 Jesse Dwyer 表示:Cloudflare 的博文是“銷售噱頭”,并表示文中截圖“顯示沒有內容被訪問”。在后續郵件中,Dwyer 進一步否認,稱 Cloudflare 提到的機器人“甚至不是我們的”。
Cloudflare 表示,其調查源于客戶投訴 —— 部分客戶已在 robots 文件中添加規則并專門攔截 Perplexity 的已知爬蟲,但仍遭其抓取。Cloudflare 測試后確認屬實。
作為回應,Cloudflare 已將 Perplexity 的爬蟲移出認證名單(用于標識合法爬蟲),并添加新的技術攔截其行為。
IT之家注意到,這并非 Perplexity 首次面臨此類指控。去年《Wired》等媒體也曾指控 Perplexity 抄襲其內容;首席執行官 Aravind Srinivas 在 Disrupt 2024 大會上面對媒體問詢卻不敢回答。
參考資料:





京公網安備 11011402013531號