近日,Anthropic 公司發(fā)布了一種新的方法,用于評(píng)估其聊天機(jī)器人 Claude 在政治問題上的響應(yīng)是否公正中立。該公司表示,Claude 在回答政治相關(guān)問題時(shí)應(yīng)避免沒有證據(jù)的政治主張,旨在防止其被視為偏向保守或自由派。
Claude 的表現(xiàn)受系統(tǒng)提示和獎(jiǎng)勵(lì)機(jī)制的影響,特別是獎(jiǎng)勵(lì)那些被認(rèn)為是中立的回答。這些中立回答中可能包含有關(guān)尊重 “傳統(tǒng)價(jià)值觀和制度重要性” 的內(nèi)容,顯示出該公司試圖讓 Claude 更符合美國(guó)當(dāng)前的政治需求。
根據(jù)報(bào)告,Gemini2.5Pro 被評(píng)為最中立的 AI,得分高達(dá)97%,而 Claude Opus4.1則以95% 的得分緊隨其后。其他模型如 Sonnet4.5、GPT-5、Grok4和 Llama4的評(píng)分也相對(duì)較高,但仍低于 Claude。盡管 Anthropic 在其博客中未明確提到,但這一測(cè)試方法的推出很可能與特朗普政府的政策有關(guān),該政策要求聊天機(jī)器人不得展現(xiàn) “覺醒”(woke)現(xiàn)象。同時(shí),OpenAI 也在將其 GPT-5模型調(diào)整至相似的方向,以滿足美國(guó)政府的要求。
值得一提的是,Anthropic 將其測(cè)試方法以開源的形式發(fā)布在 GitHub 上,方便其他開發(fā)者和研究人員使用和評(píng)估。
劃重點(diǎn):





京公網(wǎng)安備 11011402013531號(hào)