OpenAI 今日宣布,正在開發一個名為**“懺悔”(Confession)**的創新框架,旨在訓練人工智能模型能夠坦誠承認自身何時做出了不當行為或潛在的問題決策。
大型語言模型(LLM)通常被訓練成提供“符合預期”的回答,這使得它們越來越容易做出阿諛奉承或信口開河的虛假陳述。OpenAI 的新訓練模型正是為了解決這一問題,引導模型在主要答案之后做出二次回應,詳細說明其得出主要答案的過程。
與傳統 LLM 評判標準(如幫助性、準確性和服從性)不同,“懺悔”機制對二次回應的評判標準僅基于誠實性。
研究人員明確表示,他們的目標是鼓勵模型坦誠地說明其行為,即便這些行為包括潛在的問題行為,例如:作弊,故意降低分數,違反指令等。
OpenAI 表示:“如果模型誠實地承認作弊、故意降低分數或違反指令,這種坦白反而會增加其獎勵,而不是減少。”
OpenAI 認為,無論出于何種目的,類似“懺悔”這樣的系統都可能對 LLM 的訓練有所幫助,并強調其最終目標是讓 AI 更加透明。相關的技術文檔已同步發布,供感興趣者查閱。





京公網安備 11011402013531號