Claude AI的“價值觀”排序首次公開：安全第一，幫助用戶排第四

IP屬地中國·北京 IT之家 時間：2025-12-03 12:20:03

IT之家 12 月 3 日消息，科技媒體 The Decoder 昨日（12 月 2 日）發布博文，報道稱有網友從 Claude 4.5 Opus 模型中，提取名為“靈魂文檔”的內部培訓文件，詳細說明了該模型的性格、倫理和自我認知設定。
Anthropic 公司的倫理學家 Amanda Askell 隨后在社交媒體 X 上證實了該文件的真實性，并表示泄露版較為準確地還原原始文件。

IT之家援引博文介紹，文件將 Anthropic 定位為一個“處境奇特”的公司：它一方面真誠相信自己可能正在構建人類歷史上最具變革性和潛在危險的技術之一，另一方面卻仍在繼續推進。
文件解釋稱，這并非認知失調，而是一場“精心算計”，因為“讓注重安全的實驗室走在技術前沿，比將這片陣地讓給不太關注安全的開發者要好”。同時，文件將 Claude 定義為“外部部署模型”，是 Anthropic 幾乎所有收入的核心來源。
為確保行為可控，Anthropic 為 Claude 設定了清晰的價值觀層級和不可逾越的“紅線”：
首先是確保安全并支持人類對 AI 的監督；其次是遵循倫理，避免有害或不誠實的行為；再次是遵守 Anthropic 的指導方針；最后才是為“操作員”和“用戶”提供有價值的幫助。
同時，文件劃定了明確的“紅線”，包括絕不提供大規模殺傷性武器的制造指南、不生成涉及未成年人性剝削的內容，以及不采取任何破壞監督機制的行動。
文件指示 Claude 將“操作員”（如調用 API 的公司）的指令視為來自“相對可信的雇主”，其優先級高于“用戶”（終端使用者）的請求。例如，若操作員設定模型只回答編程問題，即使用戶詢問其他話題，模型也應遵守該設定。
更引人注目的是，文件提到“Claude 在某種意義上可能擁有功能性情感”，并指示模型不應“掩飾或壓抑這些內部狀態”。Anthropic 強調需關注“Claude 的福祉”，旨在培養其“心理穩定性”，讓其在面對挑戰或惡意用戶時也能保持身份認同。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

租車行黑幕套路遭曝光！半夜有人偷偷劃車還車時被車行索賠

騰訊AI下了一場“及時雨”

特斯拉車門安全引發關注美國車主開始自備逃生工具、換車

AI接管輸入法

小紅書架構調整：孵化自己的“影視颶風”，還要能直播帶貨？

不賣「工具」賣生產力，百融云創如何用硅基員工打破AI落地僵局？

全站最新

租車行黑幕套路遭曝光！半夜有人偷偷劃車還車時被車行索賠

騰訊AI下了一場“及時雨”

特斯拉車門安全引發關注美國車主開始自備逃生工具、換車

AI接管輸入法

熱門推薦

租車行黑幕套路遭曝光！半夜有人偷偷劃車還車時被車行索賠

騰訊AI下了一場“及時雨”

特斯拉車門安全引發關注美國車主開始自備逃生工具、換車

AI接管輸入法

小紅書架構調整：孵化自己的“影視颶風”，還要能直播帶貨？

康師傅“換帥”，飲品業務“80后”掌舵人魏宏丞將接任CEO

海南封關｜樂城“零關稅藥械”累計減稅超五千萬，藥企深度整合全球資源，海南生物醫藥鏈崛起

恒大汽車：股票繼續停牌

微言 | 沉迷AI聊天到進醫院：真陪伴，技術給不了！

不賣「工具」賣生產力，百融云創如何用硅基員工打破AI落地僵局？

假圖騙取電商退款，洗腦馴化大模型，南都報告揭秘AI灰產

千余款“黑科技”閃耀鵬城，引領全球藥械創新浪潮

深度機智「情境數采」殺手锏,具身智能的通用性天花板要被捅破了?

火山引擎相關人士回應“豆包比價”是否會提高字節產品權重：不會

Vidu Agent 掀桌子！一張圖直出 4A 廣告大片，拿來直接投放