12 月 23 日消息,盡管 OpenAI 正致力于強化其 Atlas 人工智能瀏覽器的網絡攻擊防御能力,但該公司承認,提示詞注入攻擊 —— 一種通過操縱人工智能智能體、使其執行隱藏在網頁或電子郵件中的惡意指令的攻擊手段 —— 帶來的風險短期內無法消除。這也引發了人們對人工智能智能體在開放網絡環境下能否安全運行的質疑。
OpenAI 在當地時間周一發布的一篇博客文章中詳細闡述了該公司為增強 Atlas 的防御能力、抵御持續攻擊所采取的措施,并寫道:“提示詞注入攻擊就像網絡上的詐騙和社會工程學攻擊一樣,幾乎不可能被完全‘攻克’。”該公司坦承,ChatGPT Atlas 的“智能體模式”“擴大了安全威脅面”。
據了解,OpenAI 于今年 10 月推出了 ChatGPT Atlas 瀏覽器,隨后安全研究人員迅速發布了相關演示,證明只需在谷歌文檔中輸入寥寥數語,就能改變底層瀏覽器的行為。就在同一天,瀏覽器廠商 Brave 也發布博客指出,間接提示詞注入攻擊是所有人工智能驅動型瀏覽器面臨的系統性挑戰,Perplexity 公司的 Comet 瀏覽器也未能幸免。
意識到提示詞注入攻擊威脅將長期存在的并非只有 OpenAI 一家。英國國家網絡安全中心本月早些時候發出警告,稱針對生成式人工智能應用的提示詞注入攻擊“或許永遠無法被完全緩解”,這使得各類網站都面臨數據泄露的風險。這家英國政府機構建議網絡安全從業者,應著力降低提示詞注入攻擊的風險及影響,而非寄希望于將這類攻擊“徹底阻止”。
就 OpenAI 而言,該公司表示:“我們將提示詞注入視為一項長期的人工智能安全挑戰,未來需要持續強化防御措施。”
那么,面對這項永無止境的任務,OpenAI 給出了怎樣的解決方案?答案是建立一套主動式快速響應機制。該公司稱,這套機制已初顯成效,能夠在新型攻擊手段被用于“實戰攻擊”前,提前在內部發現這些攻擊策略。
這一思路其實與 Anthropic、谷歌等競爭對手的主張并無本質區別:要應對提示詞注入攻擊的持續威脅,必須構建多層防御體系,并持續開展壓力測試。例如,谷歌近期的研究重點就聚焦于智能體系統的架構層面與策略層面管控。
不過,OpenAI 采取了一種與眾不同的策略 —— 開發“基于大語言模型的自動化攻擊程序”。本質上,這是一款由 OpenAI 借助強化學習技術訓練而成的機器人,其作用是模擬黑客行為,尋找向人工智能智能體植入惡意指令的途徑。
這款機器人可以先在模擬環境中測試攻擊手段,再投入實際應用。模擬環境能夠還原目標人工智能在遭遇攻擊時的思維過程與可能采取的行動。隨后,機器人可分析目標的反應,調整攻擊方式,并反復進行測試。這種能夠洞悉目標人工智能內部推理邏輯的優勢,是外部攻擊者所不具備的。因此從理論上講,OpenAI 的這款機器人發現系統漏洞的速度,要快于現實中的黑客。
這是人工智能安全測試領域的一種常用方法:打造一個智能體,讓它找出系統的極端漏洞場景,并在模擬環境中開展快速測試。
OpenAI 在博客中寫道:“我們通過強化學習訓練的攻擊程序,能夠誘導目標智能體執行復雜且需要多步驟推進的有害任務流程,這些流程的操作步驟可達數十步甚至數百步。此外,我們還發現了一些全新的攻擊策略,這些策略既未出現在我們的人工紅隊測試中,也沒有相關外部報告提及。”
在一份演示案例中(上圖為部分截圖),OpenAI 展示了其自動化攻擊程序如何將一封惡意電子郵件植入用戶收件箱。當人工智能智能體后續掃描收件箱時,它執行了郵件中隱藏的惡意指令,發送了一封辭職信,而非按要求撰寫休假自動回復郵件。不過 OpenAI 稱,在完成安全更新后,“智能體模式”已能成功檢測到提示詞注入攻擊的企圖,并向用戶發出告警。
該公司表示,盡管要實現對提示詞注入攻擊的萬無一失防御難度極大,但仍在依靠大規模測試與更快速的補丁更新周期,力爭在相關攻擊手段出現在現實世界之前,完成系統防御加固。
針對 Atlas 的安全更新是否已顯著降低攻擊成功率這一問題,OpenAI 發言人拒絕透露具體數據,但表示該公司早在 Atlas 瀏覽器發布前,就已與第三方機構合作,共同強化其針對提示詞注入攻擊的防御能力。
網絡安全公司 Wiz 的首席安全研究員拉米?麥卡錫指出,強化學習技術確實能實現對攻擊者行為的持續自適應防御,但這只是解決方案的一部分。
麥卡錫在接受科技媒體 TechCrunch 采訪時表示:“衡量人工智能系統風險的一個有效方法,是計算其自主性與訪問權限的乘積。”
他進一步解釋道:“智能體瀏覽器恰恰處于這一風險模型中的高挑戰區域:它們擁有中等程度的自主性,同時又具備極高的系統訪問權限。當前許多安全建議,其實都反映了這種利弊權衡。比如限制登錄狀態下的訪問權限,主要是為了減少暴露面;而要求對各類確認請求進行人工審核,則是為了約束智能體的自主操作權限。”
這兩點也被列入 OpenAI 向用戶提供的風險降低建議中。該公司發言人還表示,Atlas 瀏覽器經過訓練,在發送郵件或執行支付操作前,都會向用戶發起確認請求。OpenAI 同時建議用戶,應向智能體下達具體明確的指令,而非直接授予其收件箱訪問權限,簡單告知其“自行采取必要措施”。
OpenAI 指出:“即便已部署安全防護措施,過高的自主操作權限也會讓隱藏的惡意內容更容易對智能體產生影響。”
盡管 OpenAI 聲稱,保護 Atlas 用戶免受提示詞注入攻擊是公司的首要任務,但麥卡錫仍對這類高風險瀏覽器的投入產出比持懷疑態度。
他在接受 TechCrunch 采訪時表示:“對于大多數日常使用場景而言,智能體瀏覽器目前帶來的價值,尚不足以匹配其當前的風險水平。由于它們能夠訪問電子郵件、支付信息等敏感數據,因此風險系數極高 —— 但與此同時,也正是這種高訪問權限賦予了它們強大的功能。這種利弊平衡狀態未來或將逐步改善,但就目前而言,其中的取舍權衡依然十分顯著。”(遠洋)





京公網安備 11011402013531號