IT之家 12 月 18 日消息,據外媒 TechCrunch 今日報道,一項由作家 Elizabeth Lyon 發起的集體訴訟對 Adobe 發出新的指控,稱對方在訓練 SlimLM 語言模型時,使用了包括 Lyon 本人的作品在內的大量盜版書籍。Lyon 來自俄勒岡州,長期從事非虛構寫作,并出版多本寫作指導類書籍。
Adobe 方面介紹,SlimLM 是一套面向移動設備文檔輔助場景的小語言模型,其預訓練基礎為 SlimPajama-627B 數據集。該數據集由 Cerebras 于 2023 年發布,被描述為去重、多語料的開源集合。然而訴訟認為,SlimPajama 本身來源存在問題。
訴訟文件指出,SlimPajama 是在復制并加工 RedPajama 數據集的基礎上生成的,而 RedPajama 包含廣受爭議的 Books3 數據集。Books3 收錄約 19.1 萬本書籍,其中包含大量受版權保護作品。
訴訟明確指出,作為 RedPajama 的派生數據集,SlimPajama 同樣包含 Books3 內容,因此不可避免地納入了原告及其他作者的版權作品。
圍繞 Books3 和 RedPajama 的爭議,早已不止于 Adobe。此前,蘋果和 Salesforce 均因涉嫌在 AI 訓練中使用相關數據集而遭到起訴,相關案件指控企業未經授權使用受版權保護內容。
在更廣泛的行業背景下,類似訴訟正在成為常態。AI 模型對訓練數據規模的高度依賴,使數據來源問題頻頻引發法律風險。今年 9 月,Anthropic 同意向多名作者支付 15 億美元(IT之家注:現匯率約合 105.77 億元人民幣),就其訓練 Claude 時使用盜版作品的指控達成和解。該案件被外界視為 AI 訓練版權爭議的重要節點,然而行業內持續擴大的法律挑戰仍未終結。





京公網安備 11011402013531號