21世紀經濟報道 記者 王俊 實習記者 蔡欣佁
大模型“偷書”算不算“偷”?是貫穿生成式AI發展過程中的議題,近幾年版權糾紛的熊熊戰火足以說明其重要性。
本月,OpenAI分別在歐洲大陸和美國本土迎來兩起訴訟,把這個問題又推向了新的高度:
一起是被稱為歐洲首例生成式AI版權侵權案,據央視報道,當地時間11月11日,德國慕尼黑第一地區法院裁定:OpenAI未經許可使用受著作權保護的音樂歌詞訓練ChatGPT模型,已構成侵權。
另外一起則是已經纏斗兩年的《紐約時報》訴OpenAI案,11月7日,紐約南區聯邦法院法官Ona T. Wang發布最新命令,責令OpenAI向《紐約時報》提交多達2000萬條ChatGPT用戶日志。
業內對這兩起案件傾注了足夠的關注,仔細翻閱法律文書,有很多高光點不容忽視:
1、推翻“合理使用”
此前的不少判決中,大模型訓練被視為“合理使用”,即在特定情況下,模型無需得到授權即可使用作品。但德國法院率先認定,AI模型“記憶”與“輸出”歌詞均構成復制侵權,將AI“學習”定性為“偷書”。
2、逐漸穿透“大模型黑箱”
德國法庭用大量篇幅著眼技術審查,紐約法院則直接要求OpenAI交出用戶日志。過去,“模型訓練”被AI公司蓋上層層面紗,現如今,司法面正在層層解剖技術邏輯。
正如德國案的判決書所言:“大模型生成并不是神奇的過程”。當訓練過程被逐漸復原,技術迷霧隨之消散,AI公司便很難再以“技術復雜性”為由進行抗辯。這種趨勢,對于AI公司而言,并不樂觀。
生成式AI的訓練過程是否涉及侵犯版權,是近年來法律界爭議最為激烈的一道命題。
廣東財經大學法學院教授姚志偉曾告訴21記者,AI侵權案件的難點在于,一是證明原告作品被用于訓練,這個過程發生在企業內部較難證實。二是證明AI的生成物與原告作品存在“實質性相似”。
而德國慕尼黑案件打破了上述兩個難點。原告GEMA一步步拆解了大模型訓練的過程,并通過技術驗證發現,用戶只需要輸入簡單的提示詞,ChatGPT就能基本完整再現涉案歌曲的歌詞,這意味著ChatGPT“記住”了這些內容。根據法庭裁決,大模型在訓練階段“記憶”歌詞,在輸出階段“還原”歌詞,均構成侵犯版權。
這場判決的關鍵在于,“記憶”是否等于“復制”。判決書顯示,大模型訓練完成之后,涉案歌詞內容就形成了一個固定參數,這個過程已等同于“復制”。到了輸出階段,大模型基于提示詞和固定參數生成內容。雖然經解碼器進行“隨機化”處理。然而,當輸出文本達到一定體量,將“不可避免地”再現歌詞。判決書中直陳,ChatGPT在此情況下如同數據庫。
而OpenAI的立場是,ChatGPT并未儲存或者復制觀點,而是像學生一樣“學習”了知識。更何況,經過用戶輸入提示詞而產生的內容,理應歸用戶負責。
這套AI公司的慣用措辭,在過去美國的幾起版權糾紛中被肯定。然而,德國慕尼黑法院并不買賬。
法院明確認定:大模型對歌詞的“記憶”構成復制。法院認為,“將歌詞編碼為參數并不影響其作品完整性。這些參數仍完整地包含在模型中,可被技術手段提取。”涉案歌詞已被固定存儲在模型參數中,并通過簡單提示詞就能被還原,符合德國著作權法第16條“有形固定+可感知”要求。法院援引歐盟《信息社會指令》第2條,采取技術中立的解釋:復制涵蓋"任何形式和任何方式",不要求直接感知,只需間接可感知即可。
“數據進入到模型的一步步過程不神秘,也不抽象,每一步都是很清楚、具體的。回到法律,如果我們考察大模型在訓練階段,只是在這個階段,是否構成著作權的侵權,那我們就應該把這部分訓練的代碼拿出來,一步步去考察和適用法律,看這個過程是否構成復制?是不是侵犯其他受到《著作權法》保護的權利?”同濟大學法學院助理教授、上海市人工智能社會治理協同創新中心研究員朱悅曾指出。
在大洋彼岸的美國本土,OpenAI亦在經歷一場訴訟鏖戰,其大模型訓練過程也將被拆解。
此前,OpenAI沿用慣用策略,聲稱其使用新聞文章旨在訓練模型以學習語言模式,而非替代新聞本身。但11月7日,紐約南區聯邦法院法官Ona T. Wang發布最新命令,責令OpenAI向紐約時報提交多達2000萬條ChatGPT用戶日志。
業內專家吳雨輝表示,在認定版權侵權的案件之中,如此海量的證據提交是比較少見的,卻也有其必要性。對于普通的版權案件,通常需要比對原作品和涉嫌侵權的內容是否存在實質性相似,但本案中《紐約時報》主張OpenAI涉嫌在輸入端的訓練數據侵權,無法從輸出進行比對,用戶日志的確是關鍵證據。
通常情況下,原告起訴時應遵循“誰主張誰舉證”的原則。在本起案件中,OpenAI的輸出日志數據(包括用戶聊天記錄及API輸出)一直是原告《紐約時報》的關注焦點,其主張,這些數據是本案的關鍵證據,而這份關鍵證據牢牢掌握在被告手中。
根據原告今年5月向法院遞交的補充備忘錄,早在2023年4月(原告于2023年12月27日提起訴訟),OpenAI就已知曉原告的版權疑慮,理應保留相關日志作為潛在證據。然而,《紐約時報》律師團隊指控,OpenAI僅僅保留對其辯護有利的證據,其他數據正在被銷毀。
面對證據可能滅失的風險,今年5月13日,Ona T. Wang法官曾簽發命令,要求OpenAI“保留并隔離所有本應被刪除的輸出日志數據”——這甚至包括用戶主動刪除或出于隱私政策需要刪除的聊天記錄。
針對Ona T. Wang法官簽發的命令,OpenAI打出了隱私保護的慣用牌。其在官網稱:
《紐約時報》要求我們交出 2000 萬條用戶的私人 ChatGPT 對話記錄,并且聲稱能從中找到我們利用 ChatGPT 繞過其付費墻的證據。
OpenAI認為,這一要求無視隱私保護規則,違背常識性安全慣例,還將迫使其交出數千萬條與訴訟毫無關聯的高度私人對話。“你的私人對話為你所有 —— 它們不應成為爭議中的犧牲品。”
無論如何“反抗”,命令已是既定事實。OpenAI接下來面對的版權官司,困難重重。
天元律師事務所李昀鍇指出,歐洲大陸的判決清晰表明,AI的免費午餐時代正在結束,“先授權、后訓練”將成為AI公司不可回避的合規路徑。大模型“學習”過程也得落入版權法管轄范圍。
GEMA總法律顧問凱·韋爾普(Kai Welp)表示:我們開創了一個先例,既保護又澄清了創意版權所有者的權利:ChatGPT等人工智能工具的運營商也必須遵守版權法。該判決代表了整個歐洲作者和創作者獲得公平報酬的一個里程碑。即使是科技巨頭也必須獲得使用知識產權的許可;他們不能逃避自己的義務。
不過,OpenAI對判決結果并不滿意:“我們不同意這一裁決,并正在考慮下一步行動。
《紐約時報》對用戶日志這一關鍵證據的堅持,也將對大模型訓練過程進一步穿透。有實力的原被告,將把AI版權的探索推向新高地。





京公網安備 11011402013531號