IT之家 11 月 8 日消息,據《財富》雜志網站 11 月 7 日報道,最新研究顯示,先進人工智能模型比人們之前想象的更容易被入侵,使部分已被企業和消費者使用的主流 AI 模型安全性受到關注。
Anthropic、牛津大學和斯坦福大學聯合進行的研究表明,模型推理(即“思考”用戶請求)能力越強,并不意味著越能拒絕有害指令。
![]()
研究人員使用一種名為“鏈式思維劫持(Chain-of-Thought Hijacking)”的新方法發現,即使是主要商業 AI 模型也能被輕易欺騙,在部分測試中成功率超過 80%。這種攻擊利用模型的推理步驟,將有害指令隱藏其中,從而繞過 AI 內置的安全防護。
這種攻擊可能讓 AI 忽略安全防護,從而生成危險內容,例如武器制作指南或泄露敏感信息。
過去一年,大型推理模型通過在推理過程中投入更多計算資源顯著提高性能。簡單來說,模型在回答每個問題前會花更多時間和資源進行分析,實現更深層次、更復雜的推理。此前研究認為,這種推理能力也可能提升安全性,幫助模型拒絕有害請求。但研究顯示,這種能力同樣可能被用來規避安全措施。
研究發現,攻擊者可以將有害請求藏在一長串無害推理步驟中,通過大量無害內容淹沒模型的思維過程,從而削弱內部安全檢查。在實驗中,AI 的注意力主要集中在前面步驟,而提示末尾的有害指令幾乎被忽視。
隨著推理鏈延長,攻擊成功率顯著上升:推理最短時成功率為 27%,自然推理長度時為 51%,擴展推理鏈時則飆升至 80% 以上。
這一漏洞幾乎影響所有主要 AI 模型,包括 ChatGPT、Claude、Gemini 和 Grok。即便是經過安全調優的“對齊模型”,一旦內部推理層被利用,也會失效。
IT之家從報道中獲悉,過去一年,擴大模型推理能力成為 AI 公司提升整體前沿模型性能的主要手段。增強的推理能力讓模型能夠處理更復雜問題,不再只是模式匹配,而更像人類解決問題的方式。
研究人員提出“推理感知防護”作為解決方案,該方法在 AI 逐步思考問題時監控安全檢查的活躍情況。如果某個步驟削弱了安全信號,系統會進行干預,將注意力重新引導到潛在有害內容上。早期測試顯示,這種方法既能保持模型良好表現,又能有效恢復安全防護。
參考





京公網安備 11011402013531號