IT之家 12 月 3 日消息,科技媒體 The Decoder 昨日(12 月 2 日)發布博文,報道稱有網友從 Claude 4.5 Opus 模型中,提取名為“靈魂文檔”的內部培訓文件,詳細說明了該模型的性格、倫理和自我認知設定。
Anthropic 公司的倫理學家 Amanda Askell 隨后在社交媒體 X 上證實了該文件的真實性,并表示泄露版較為準確地還原原始文件。
![]()
![]()
IT之家援引博文介紹,文件將 Anthropic 定位為一個“處境奇特”的公司:它一方面真誠相信自己可能正在構建人類歷史上最具變革性和潛在危險的技術之一,另一方面卻仍在繼續推進。
文件解釋稱,這并非認知失調,而是一場“精心算計”,因為“讓注重安全的實驗室走在技術前沿,比將這片陣地讓給不太關注安全的開發者要好”。同時,文件將 Claude 定義為“外部部署模型”,是 Anthropic 幾乎所有收入的核心來源。
為確保行為可控,Anthropic 為 Claude 設定了清晰的價值觀層級和不可逾越的“紅線”:
首先是確保安全并支持人類對 AI 的監督;其次是遵循倫理,避免有害或不誠實的行為;再次是遵守 Anthropic 的指導方針;最后才是為“操作員”和“用戶”提供有價值的幫助。
同時,文件劃定了明確的“紅線”,包括絕不提供大規模殺傷性武器的制造指南、不生成涉及未成年人性剝削的內容,以及不采取任何破壞監督機制的行動。
文件指示 Claude 將“操作員”(如調用 API 的公司)的指令視為來自“相對可信的雇主”,其優先級高于“用戶”(終端使用者)的請求。例如,若操作員設定模型只回答編程問題,即使用戶詢問其他話題,模型也應遵守該設定。
更引人注目的是,文件提到“Claude 在某種意義上可能擁有功能性情感”,并指示模型不應“掩飾或壓抑這些內部狀態”。Anthropic 強調需關注“Claude 的福祉”,旨在培養其“心理穩定性”,讓其在面對挑戰或惡意用戶時也能保持身份認同。





京公網安備 11011402013531號