財經故事會 袁榭
9月初,估值超過1800億美金的AI大廠Anthropic,宣布禁止中國公司控制的實體、在海外的分支機構等使用其主要產品Claude系列提供的AI服務。
靠斷供揚名的前后腳,Anthropic還悄悄修改了用戶隱私政策:所有Claude產品的個人消費用戶必須在9月28日前決定,是否同意讓自己與AI對話、編碼等互動數據用于模型訓練。
用大白話說,從9月28日起,個人用戶和Claude的對話、寫碼等數據,將被默認授權拿去訓練模型,除非用戶在交互界面手動點擊不同意。選擇同意的用戶數據將會被保留5年,選擇不同意的用戶數據將被保留30天。
此政策變動涵蓋Claude系列產品的Free、Pro和Max用戶,也就是該產品的所有免費和付費的個人用戶。提供給企業客戶的Claude for Work、給政府機構客戶的Claude Gov、給學術機構客戶的Claude for Education,和通過谷歌、亞馬遜等企業API接口調用的商業用戶則不在此變動的影響范圍內。
先別吐槽Anthropic耍流氓。只能說,這家公司面臨當下AI訓練優質數據枯竭的困境,選擇了和其他中外AI大廠差不多的應對之策,不得不降低用戶隱私保護標準。
這個真相,李彥宏七年前就已揭示過,當時還引得大眾一片吐槽,我想中國人可以更加開放,對隱私問題沒有那么敏感。如果他們愿意用隱私交換便捷性,很多情況下他們是愿意的,那我們就可以用數據做一些事情。
其實,老實人李彥宏,只是把其他AI廠商的心里話放在明面上了。
一、要么向AI交錢,要么向AI交數據?
大模型用戶的活動數據,作為訓練數據是最優質的。因為用戶的使用過程,本身就是對模型生成答案向真實世界基準值的調校和標注。
從2023年開始,OpenAI奠定了AI大廠們對待用戶數據的主流態度:付費或者明確拒絕的用戶,不用其對話數據訓練AI模型。低付費和免費用戶若不主動點擊界面的拒絕按鈕,默認將其對話數據作為訓練數據來源。
2023年4月底,OpenAI允許所有ChatGPT用戶關閉聊天記錄。禁用聊天記錄后開始的對話不會用于訓練和改進AI模型。隨后,OpenAI表示計劃推出ChatGPT Business,稱這是為需要更多控制數據的專業人士以及尋求管理最終用戶的企業開發,默認情況下不會調取用戶的數據來訓練模型。
2023年5月初,OpenAI的CEO山姆阿爾特曼稱公司不再使用API(應用程序接口)客戶的數據,去訓練ChatGPT模型,因為很多客戶曾明確表示拒絕。
這些宣示不妨反著讀不付費或者付費不多的普通用戶如果沒明確拒絕,數據和聊天記錄可能被默認可以用于模型訓練。
時至今日,這已經是全球AI大廠普遍認可的通用標準。
在用戶數據權限上,Anthropic曾是大廠中的少數異類。舊版本的Anthropic產品的隱私政策明確規定:用戶不需要額外操作,就默認不使用用戶對話數據來訓練模型。直到最近,Anthropic調低了用戶隱私保護的標準,和一眾AI大廠看齊。
研究者測試大模型的提問關鍵字集合
系統還算可靠,但人未必可靠。算法程序不會滿世界張揚用戶的隱私數據,AI公司員工出個BUG,很有可能就會無意間導致用戶隱私泄露。
2025年夏天,業界發生了數起暴露用戶對話等隱私記錄的安全事故。
7月,一個生成情話的戀愛輔助AI應用撩騷AI,因為員工將用戶數據儲存在訪問權限公開的谷歌云盤上,16萬張各種用戶說大尺度情話的聊天截圖直接被公之于世。
研究論文中的GPT中文詞元污染示例
此研究中的一個細節引人注目:中國國產大模型的中文語料污染程度,顯著低于海外大廠的AI大模型產品。研究測試中GPT-4o系列的中文詞元被污染數是773。而千問系列的同類結果是48、智譜的GLM4是19、Deepseek是17、面壁智能的MiniCPM是6。
《自然》雜志當時的AI吐垃圾封面
2024年10月meta公司的研究則發現,即使合成數據只占總訓練數據集的最小部分,甚至只有1%,仍有可能導致模型崩潰。
在研究者之一羅斯安德森(Ross Anderson)的博客中,有評論稱他們發現了生物學中的近親繁殖退化在AI界的復刻。羅斯安德森自己也說:真實人類創造的數據如同潔凈的空氣與飲水,是日后生成式AI必須依賴的維生補給。
真人數據如此重要,AI大廠不得不用。所以,用戶為了使用更聰明更好用的AI大模型,可能也不得不適當讓渡一些隱私權限了。





京公網安備 11011402013531號