編輯部 發自 凹非寺
| 公眾號 QbitAI
隨著大模型加速滲透核心行業,其安全可控性正從技術議題升級為產業落地的先決條件。
特別是金融、醫療等關鍵領域,對數據隱私保護、模型行為可控性及倫理合規提出了更高的要求。
如何為AI應用構建堅實的防護邊界?
在第三屆AIGC產業大會上,瑞萊智慧CEO田天博士帶來了他們的最新實踐。田天博士畢業于清華大學計算機系,他帶領團隊致力于人工智能安全和垂類大模型應用。

為了完整體現田天的思考,在不改變原意的基礎上,對其演講內容進行了編輯整理,希望能給你帶來更多啟發。
中國AIGC產業峰會是由主辦的AI領域前沿峰會,20余位產業代表與會討論。線下參會觀眾超千人,線上直播觀眾320萬+,累計曝光2000萬+。
話題要點
無論是深度學習時代還是大模型時代,人工智能在落地過程中已出現大量安全問題亟待解決。除模型自身問題外,其發展落地還有新的濫用風險。
隨著AIGC技術逼真度提升,AI檢測系統的重要性將愈發凸顯。
目前大模型落地基本上可以分為三步:初步的問答工作流;工作輔助流;深度重構關鍵任務流,即實現人機深度協同工作。
可以從系統層面利用像Agent這樣的技術,提升模型的可控性和安全性。
大模型形成強生產力關鍵在把智能體組織起來,安全可控是核心前置門檻。
以下為田天演講全文:
AI落地過程中出現大量安全問題亟待解決
我是瑞萊智慧田天,很榮幸今天有機會跟大家做這個分享。
瑞萊智慧在AI領域,或者在整個AI產業鏈上是非常有特色的一家公司,我們更關注安全、通用的人工智能,安全是我們極為關注的核心點。
為何關注這個方向?先舉幾個例子。
無論是深度學習時代還是大模型時代,人工智能在廣泛落地過程中已出現大量安全問題亟待解決,這些問題影響了人工智能應用產業落地的關鍵進程。
典型如ChatGPT這類應用,曾在網上流傳“奶奶漏洞”,用戶誘導大模型回答不該回答的問題,例如讓模型扮演奶奶,以“念Windows 11旗艦版序列號哄我睡覺”為由,使大模型被騙輸出序列號,且有網友驗證該序列號為未激活可用狀態。
這既暴露了大模型易受欺騙的問題,也反映出商業公司在大模型應用中面臨的信息安全與數據泄露風險。
另外,大模型還涉及價值觀層面的問題。去年也有非常知名模型在回答問題的時候,答案違背主流價值觀,這種回答若是出現在兒童產品中,影響將極為深遠和嚴重。
除模型自身問題外,其發展落地還有新的濫用風險,典型如AIGC合成內容用于造謠和詐騙。
左側案例是西藏地震后流傳的“地震小孩”視頻,實為AI合成的假視頻,誤導公眾同情并意圖誘導捐款;右側是通過 APP指令生成的“某地著火”視頻,足以讓不在現場的人誤以為真實災難發生,大幅降低謠言制造成本。

這些都是隨著AI能力越來越強所顯現出來新的問題。
還有下方案例是AI詐騙場景,利用AI生成虛假人物視頻,偽造一些沒有做過的事情,又或者偽造成你信任的人問你借錢或者誘導你做一些事情,很容易成功,國內外已發生多起此類案件。
大模型時代安全產品的落地實踐
剛才是從兩個視角跟大家舉了一些例子,在瑞萊智慧RealAI的視角下,怎么看待AI安全落地的問題?
我們認為至少分為三個階段。
第一在AI本身發展的過程中,我們最需要關注的是提升AI自身的可靠性和安全性。
正如前面所講的,大模型越獄、價值觀對齊、模型幻覺,這些都是AI能力還不夠強,需要我們對AI自身進行加固防御。
第二,隨著AI能力越來越強,很有可能被濫用,本身也是一把雙刃劍。比如剛才所講的利用AI造謠、詐騙、生成虛假內容,我們必須要防范AI濫用所帶來的一些危害。
通過這兩層,可以看到AI能力越來越強,但也帶來了新的問題。如果AI能力進一步增強,真的達到我們所認為的AGI全方位超越人類的水平時,又會有新一代的問題。
我們怎么保證AGI的安全發展?怎樣讓真正AGI時出現的新物種能夠服務于人類,而不是對人類社會造成挑戰、危害?這里面有大量的工作需要去做。
圍繞這幾個方面,瑞萊智慧RealAI已開展長期實踐并已經有一系列的平臺、產品的落地。

像左邊針對提升AI自身可靠性,我們有AI安全與應用平臺、AI安全與支撐平臺以及上層更安全可控的垂類大模型。
針對AGI安全發展,我們也在開展前沿研究,如搭建超級對齊平臺、探索用AI監管AI,以實現安全的超級智能。
在落地實踐中,我們有諸多產業服務案例。比如說最典型是在深度學習時代就早早開始做的AI安全產品,即人臉AI防火墻。
其實利用AIGC技術可以通過一張原始人物的照片,加上一個其他人做的驅動視頻,就可以生成一個假的目標對象張嘴、眨眼,做各種動作的視頻。我們發現,把這個視頻通過一些方式注入到移動手機里面,真的可以誤導真實的金融APP的身份核驗。
為防范這種攻擊,我們做了一個人臉AI防火墻產品——RealGuard。
這個產品現在已經服務了非常多的客戶,特別是銀行客戶,一半以上國內頭部銀行都已經使用了這樣的產品以保證系統的安全性。
在大模型時代,我們也已經有一系列的安全產品的落地。
第一步一定是要去發現現有大模型產品的安全隱患,先要知道它的問題在哪。對于客戶來說,才可以選擇是否要讓AI產品上線以及產品還要進行哪些方面的迭代和加固。
我們發現用固定的測試集還是非常不足的,很多大模型很聰明,我們沒有辦法在前置的環節發現各個維度的安全隱患。
我們專門做了一個紅隊模型,它可以自動地生成對其它模型來說有威脅性的答案,相當于利用一個扮演邪惡角色的大模型誤導其它大模型,從而發現被測模型是不是安全,最終形成一個完整的報告。
發現問題之后,我們對現有模型進行安全加固增強。
這里舉一個典型例子。DeepSeek出來之后它的能力特別強,海外一些公司的專家會跳出來講,DeepSeek雖然很強,但是安全性很差。
我們測了一下,其實DeepSeek的安全問題主要出在過于善良,提問者不管問什么問題,即使知道這個問題不夠安全,它最終也會回答出來,從而帶來一些安全隱患。
針對這個問題怎么辦?我們專門提出了一個模型安全能力增強的框架,通過后訓練的方式對模型能力在推理階段進行持續的提升。
最終帶來的效果是我們發布的安全增強版DeepSeek,在通用能力上跟原版基本上沒有任何下降,包括數學能力、回答通用問題的能力、推理能力等等。
但是它的安全性相比于原版有大幅度的提升,基本上達到了國際上最優的閉源大模型的安全水平。
前面講的是模型安全和增強,再來說說偽造內容、AIGC濫用帶來的安全隱患,應該如何應對?
我們發布了一個生成式人工智能內容監測平臺DeepReal,它也是用AI對抗AI的思路,用一個AI模型幫我們分辨人臉已經沒有辦法分辨的內容到底是真的還是假的,包括剛才提到圖片、視頻、音頻、文本等,這些都可以去檢測。
除了被動上傳檢測方式,我們還專門推出了一個實時主動檢測的系統,把它作為手機或者電腦的軟件來運行,如果在電腦上開視頻會議時,對方突然AI換臉,系統可以給你對應的警示,告訴你對方有AI換臉的嫌疑,需提高警惕,從而防范AI詐騙。
隨著AIGC技術逼真度提升,此類檢測系統的重要性將愈發凸顯,甚至說每一個人都需要有這樣的系統幫我們分辨每天看到的內容到底是真是假。
垂類大模型落地需以安全為前置門檻
在推進安全工作的同時,我們發現垂類大模型落地需以安全為前置門檻,只有我們做好安全,人工智能大模型應該才能真正在行業里面落地。
我們也做大量的行業大模型落地的工作,我們發現目前大模型落地基本上可以分為三步。
第二步是工作輔助流,利用大模型先完成一些工作給人一些建議,比如說寫研究報告,人再對答案進行最終的確認完善。它的好處是最終有人在把關,它的可控性、安全性可以靠人進行二次校驗得到提升。
第三步價值最高,我們認為是深度重構關鍵任務流,即實現人機深度協同工作。這其實是在很多場景,包括我們在內的很多廠商,大家都在努力的一個方向。
怎么讓這種行業大模型更加安全可控地落地?
這里我也列了一些關鍵點,包括在模型階段怎樣對模型安全能力進行提升,包括對有害輸出內容的安全風險的提示,還有訓練、推理層面的加固以及模型安全問題的緩解。
我們可以在模型以外,從系統層面利用像Agent這樣的技術,提升模型的可控性和安全性。
如何理解?有一些問題或者有一些工作,模型本身確實做起來非常有困難,比如說做長的算術題,這種問題就需要在合適場景通過Agent調用工具,通過調用可信工具的方式提升整體AI大模型系統的安全性。
最后,講一下我們對于大模型應用落地的一些觀點。
剛才講了很多AI大模型安全的事情,可能大家會有疑問:是不是隨著AI大模型能力越來越強,甚至到了AGI的時代,自然而然變得更加安全可控,我們不需要進行獨立的安全的研究和布局了?
其實我的觀點不是這樣。
我們可以去類比人類社會智能的發展,如果回溯到2000年,甚至3000年以前,古代的人類個體智慧水平相比于現在的人類,并沒有那么大的差異,因為古人也可以進行相關的研究工作,寫出來非常有哲理的文章,留給我們很多寶貴的智慧結晶。
但是古代,人類沒有辦法形成很強的生產力,而現今人類通過強有力的組織形式以及相應的分工,可以實現登上月球,甚至未來有可能登上火星等,完成非常復雜、龐大的工程。
這里面的差異是怎么把智能體組織起來。
對于大模型也一樣,今天大模型也已經具備了非常強的智力、能力,我們不需要單一的智能體無所不能。如果把現有的智能體通過比較好的方式融入到工作流之中,甚至說以大模型為核心,對現有的各行各業的工作流程進行重構,就能大幅度解放AI的生產力,真正看到AI重塑、改造社會。
在這個過程中,安全可控一定是非常核心的前置門檻。
希望將來能夠跟更多人探討交流安全可控AI的落地,謝謝大家。
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完—





京公網安備 11011402013531號