要說有什么瓜,能從去年吃到今年,那必須得有一大批傳統媒體“開撕”AI大廠的一席之地。
為了防止有人還不知道這事兒,我先簡單交代下背景。
這次事件的主角是一家在AI圈內聲名鵲起、估值已達180億美元的初創公司——Perplexity AI。
而站在他們對面的,則是一個由全球頂級媒體組成的“復仇者聯盟”:日本最大的報業集團《讀賣新聞》、英國廣播公司(BBC)、新聞集團旗下的道瓊斯(《華爾街日報》母公司)和《紐約郵報》,以及早已向其發出“最后通牒”的《紐約時報》。
這些傳統媒體們給Perplexity AI安的罪名是未經許可使用版權材料,他們還在自家網站上發了篇文章,專門報道了這事兒。
![]()
(圖源:讀賣新聞)
乍看之下,這像是一場傳統媒體巨頭對新興技術公司的圍剿,一場“舊時代”對“新物種”的宣戰。
但當你深入了解Perplexity的工作方式后,你會發現,這場爭斗遠比想象中復雜。它不僅僅是關于幾篇文章的版權歸屬,更是關于互聯網信息流轉方式、商業模式乃至整個內容生態未來走向的一場深刻博弈。
![]()
(圖源:雷科技制作)
這一幕,與2014年搜狐新聞們聯合起來控訴今日頭條何其相似。當年,作為新物種的今日頭條用“千人千面”的推薦算法顛覆了互聯網內容分發體系,多家傳統媒體以及門戶網站對今日頭條發起訴訟。
![]()
那么這一次媒體們起訴Perplexity AI又是怎么回事呢?
AI答案引擎PerplexityAI動了誰的蛋糕?
要理解這場風暴,我們首先要搞清楚Perplexity到底是什么。
許多人將其稱為AI搜索引擎,但這并不完全準確。與其把它看作下一個谷歌,不如稱其為答案引擎。這個定位上的細微差別,正是其顛覆性與爭議性的根源所在。
![]()
(圖源:Perplexity)
我們以一個簡單的場景為例,假設你想了解“蘋果Vision Pro的銷量為什么未達預期”,在傳統搜索引擎上,你會得到一個長長的鏈接列表。
你需要像一個偵探一樣,逐一點擊、閱讀、篩選、辨別,最后在腦中自己拼湊出答案。此時谷歌的角色,更像是一個盡職盡責的圖書管理員,他告訴你相關的書籍都在哪些書架上,但找書和看書的功夫,還得你自己來。
它的核心是指路,將流量導向最終的內容源頭。
而Perplexity則不同,當你問出同樣的問題,它不會給你一堆鏈接。
![]()
(圖:雷科技)
相反,它會直接生成一段文字,告訴你原因可能包括價格過高、應用生態不完善、佩戴舒適度問題等等,并在段落末尾附上幾個信息來源的角標,就像是替你讀完了所有的資料,并把消化、提煉后的結論直接喂到你嘴邊。
它的核心是解答,將信息價值匯聚在自己的平臺之上。
這種一步到位的便利性,對于用戶而言確實是很方便的,它縮短了用戶從提出問題到獲得答案的路徑,提供了前所未有的信息獲取效率,這也是如今搜索引擎紛紛融入大模型的原因之一。
然而,這種極致便利的背后,卻是對傳統互聯網生態鏈的一次降維打擊。
傳統新聞網站辛辛苦苦派記者采訪、花編輯時間撰寫、投入成本運營換來的深度文章,其最核心的信息價值,被Perplexity的AI模型輕松吸走,然后打包成了自己的產品。
![]()
(圖:讀賣新聞)
這種模式直接損害了出版商們賴以為生的根本:流量、廣告展示、付費訂閱。在這套新玩法面前,這些都成了為人作嫁的笑話。用戶在Perplexity上就已經心滿意足,自然也就沒有了點擊原始鏈接、訪問新聞網站的需求。
更夸張的是,在此之前,如果你告訴Perplexity因為付費沒法兒看某篇文章,讓它給你打出原文的第一段,然后再讓他給出下文,就能完全繞過付費墻,直接看文章了。
![]()
(圖:雷科技)
不過我試了一下,現在倒是會提醒版權限制了,但是關鍵內容依然會以摘要的形式進行展現。
更讓媒體無法接受的,是他們激進的數據抓取手段。
根據云安全公司Cloudflare的報告,Perplexity存在繞過網站規則、抓取受保護內容的行為。當網站的robots.txt協議明確表示“謝絕爬蟲”時,Perplexity的機器人會通過修改自己的代理信息,偽裝成普通的瀏覽器用戶,以此蒙混過關。
說實話,看完來龍去脈后,我覺得Perplexity這么做確實有那么點不厚道。
這也難怪,讀賣新聞在最后的訴求里要Perplexity賠償21.68億日元(約合1.06億元人民幣)的損失。
內容源頭“說不清”成了大模型的“原罪”
有趣的是,Perplexity如今所面臨的圍攻,并非孤例。
事實上,放眼整個AI行業,類似的爭議早已屢見不鮮,幾乎成了所有AI巨頭都無法繞開的“原罪”。
這片戰火,早已經從新聞業蔓延至文學、藝術乃至軟件編程的每一個角落。
在文本領域,2023年末,《紐約時報》正式對OpenAI提起訴訟,指控其非法使用數百萬篇文章來訓練ChatGPT。訴狀中最致命的證據,莫過于展示了ChatGPT在特定提示下,能夠幾乎逐字逐句地復述自家的付費版權內容。
![]()
(圖源:US GOV)
緊隨其后的,是一個由眾多知名作家組成的“復仇者聯盟”,包括《權力的游戲》作者喬治·R·R·馬丁在內的美國作家協會共同發起集體訴訟,控訴自己畢生的心血之作,在未經許可、未獲分文報酬的情況下,淪為了大模型“不勞而獲”的訓練素材。
在圖像領域,沖突同樣白熱化。全球最大的圖庫Getty Images在訴訟中聲稱,Stability AI非法抓取了其超過1200萬張圖片進行訓練,部分生成的圖像中,甚至還能看到Getty Images那標志的隱藏水印。
此起彼伏的爭議,指向了當前生成式AI發展的兩個根本性問題。
首先,是模型對大規模訓練數據的需求。要讓一個AI變得更智能,開發者就必須為其投喂更大的數據集,這種對數據的需求,決定了AI公司必然會采用“地毯式”的掃蕩策略,將互聯網上一切可及的數據都納入囊中。
其次,是AI公司試圖重塑互聯網生態的野心。Perplexity不僅要做網頁、插件,更是最近推出了Comet瀏覽器,旨在成為新的“互聯網入口”,希望用答案徹底取代傳統的網頁鏈接。
這種商業模式的本質,就是流量截留,可以說直接動搖了整個內容產業的根基。
![]()
(圖源:Perplexity)
面對排山倒海而來的訴訟,Perplexity表示自己根本就不是做AI大模型的,試圖以自己只是一個代理應用為由撇責,他們認為抓取網頁信息的機器人應該被視為用戶驅動的AI助手,但這并不能解釋為什么他們能夠不經允許直接輸出別家網站的內容。
至于那些在訓練大模型的AI公司們,則不約而同地舉起了一面法律大旗——合理使用,他們聲稱,使用受版權作品訓練AI就像一個學生為了學習寫作而博覽群書,其目的在于技術創新,而非市場替代,當前出現原文的情況只是BUG而已。
要我說,這種說法多少也有點甩鍋的意思。
內容版權問題成AI產業的關鍵之殤
你還別說,這次事件的關注度還蠻高的。
一邊是老牌傳統媒體,一邊是新興AI巨頭,事情發生后,立刻就有人把這次的案件,拔到了AI版權糾紛里程碑的高度。
![]()
(圖源:X)
甚至,還有不少科技、媒體圈的大佬親自下場站隊,但是一直到現在,也沒人能說得清楚到底誰對誰錯。
給一眾吃瓜群眾,看得是一愣一愣的。
有趣的是,盡管官司打得震天響,但截至目前,還沒有任何一家大型AI公司,因為在訓練數據方面的版權爭議而被法庭最終裁定需要支付巨額賠償。
這是因為,在法庭之外,一種默契正在悄然形成。為了規避法律風險,許多AI公司都開始選擇花錢買平安,主動與內容出版商達成授權協議,OpenAI、蘋果等巨頭,更是已在積極尋求與各大媒體的內容合作。
![]()
(圖源:Axios)
這揭示了一個略顯殘酷但必須承認的現實——
一方面,我們無法否認AI公司在發展初期存在著對版權的漠視,其帶來的利益糾紛是真實且深刻的;另一方面,我們也不得不承認,沒有海量的數據滋養,就沒有今天我們所見到的、能夠極大提升生產力的強大AI。
繼續停留在偷與抓的混亂狀態,對雙方都是一種消耗,或許是時候跳出二元對立,建立一個規范化的、覆蓋全行業的數據使用和共享機制了。
依雷科技之見,這個機制完全可以借鑒音樂產業的版稅系統。
這樣AI公司不再需要偷偷摸摸地去抓取數據,而是可以通過向這個組織支付許可費用,合法地獲取高質量、經過授權的訓練數據,而該組織則根據數據被使用的頻率等指標,將收入分配給作為內容源頭的媒體、作家和藝術家們。
如此一來,AI的發展便有了合法、穩定、高質量的材料,而內容創作者們的辛勤勞動也能獲得應有的回報,從而促成良性循環。





京公網安備 11011402013531號