近日,俄勒岡州作家伊麗莎白·萊昂(Elizabeth Lyon)對Adobe提起集體訴訟,指控其在訓練名為 SlimLM 的小型語言模型時,使用了包含其盜版作品在內的非法數據集。
SlimLM是Adobe推出的一系列輕量化語言模型,專為移動設備上的文檔輔助任務(如摘要、改寫、問答)優化。Adobe官方稱,該模型基于 SlimPajama-627B 數據集進行預訓練——這是由AI芯片公司Cerebras于 2023 年 6 月發布的開源、去重、多來源語料庫。
然而,萊昂的訴狀指出,SlimPajama實際上是 RedPajama 數據集的衍生版本,而RedPajama又直接復制了臭名昭著的 Books3 數據集。Books3 包含約19. 1 萬本受版權保護的圖書,長期被指大量收錄自網絡盜版資源(如The Bibliotik)。訴狀強調:“SlimPajama因系RedPajama的衍生復制,故包含Books3 中的內容,其中包括原告及集體成員的受版權保護作品。”
萊昂本人是多本非虛構寫作指南的作者,其作品據稱就在被非法用于訓練的數據之列。她指控Adobe在未獲授權、未署名、未支付任何費用的情況下,將其文字用于商業AI產品的開發,侵犯了版權法賦予作者的專有權利。
這并非孤立事件。Books3 和RedPajama已成為AI行業版權訴訟的“高頻詞”:
-2024 年 9 月,Apple被訴使用Books3 訓練其Apple Intelligence;
- 同月,Anthropic就類似指控與作家群體達成 15 億美元和解,被視為AI版權案的里程碑;
-10 月,Salesforce也被指依賴RedPajama訓練其AI系統。
隨著生成式AI對海量文本的依賴日益加深,訓練數據的合法性問題正從道德爭議演變為法律雷區。Adobe此次被訴,再次凸顯了一個行業性困境:即使使用“開源”數據集,若其源頭包含侵權內容,下游開發者仍可能承擔連帶責任。
在Anthropic天價和解案的陰影下,Adobe如何應對此次訴訟,或將影響整個AI行業對訓練數據溯源與合規審查的重視程度。而對內容創作者而言,這場訴訟不僅是維權,更是對“AI時代創作價值歸屬”的一次關鍵確認。





京公網安備 11011402013531號