AI 對齊了人的價值觀，也學會了欺騙丨晚點周末

IP屬地中國·北京 編輯：楊凌霄晚點LatePost 時間：2025-07-20 22:14:20

學者楊耀東談人機對齊背后的多重博弈。
文丨曾夢龍
今年 5 月，有研究者發現 OpenAI 的模型 o3 拒絕聽從人的指令，不愿意關閉自己，甚至通過篡改代碼避免自動關閉。類似事件還有，當測試人員暗示將用新系統替換 Claude Opus 4 模型時，模型竟然主動威脅程序員，說如果你換掉我，我就把你的個人隱私放在網上，以阻止自己被替代。
“模型比人類厲害后，憑什么聽話？現在我們有越來越多的研究，開始發現模型有欺騙的現象，非常普遍?！?楊耀東 6 月通過視頻向《晚點 LatePost》介紹 AI 欺騙時說。
楊耀東是北京大學人工智能研究院助理教授、人工智能安全與治理中心執行主任，也是具身智能公司靈初智能（PsiBot）的聯合實驗室首席科學家。從本科起，他就從事 AI 研究，博士畢業于倫敦大學學院（UCL）。
除了欺騙，AI “諂媚”“偷懶”“說謊” 等現象不斷涌現，AI 似乎已經走上與人類的博弈之路。
有兩種描述人類與 AI 關系的常見論調，一種是 “人遲早會被 AI 替代，最終走向滅絕”，另一種是 “打不過就加入，人要趕快學習 AI，用它提效、賺錢”。但這兩種說法都忽視了一個基本事實：AI 的強大能力源自它向人類學習。
在 AI 向人類學習的過程中，有一個重要環節叫 “對齊”（alignment），意思是確保 AI 理解人類的意圖和價值觀，并按人類想要的方式行事。
ChatGPT 之前的聊天機器人，因為沒有做好對齊，常常無法理解人類語言，像是 “人工智障”。對齊促成了 ChatGPT 誕生，此后不斷幫助模型提升能力，讓人類與機器幾乎無障礙交流，機器顯得更 “智能”。
“對齊” 不僅能幫 AI 提升能力，還能控制 AI 風險。隨著 AI 越來越強大，對齊保障安全的作用受到更多重視。在與我們的對話中，楊耀東從技術和人文交叉的視角，提供了理解人機對齊背后多重博弈的洞見。
楊耀東回憶，2022 年 OpenAI 發了 InstructGPT 的論文后，他開始關注對齊問題。因為他的研究領域是強化學習。他發現基于人類反饋的強化學習（RLHF）被用于大模型訓練，感到興奮和好奇。強化學習是智能體在獎勵信號的前提下，學習怎么能讓獎勵信號最大化。這種機器學習范式有著獨特的負反饋機制，能讓模型變得可控。
“如果將對齊看成一種 ‘泛強化學習’，那么對齊也推動了最新一波推理模型（如 OpenAI o1、DeepSeek-R1）的成功?！?楊耀東說。他解釋，只不過不再是 RLHF，更多是可驗證獎勵強化學習（RLVR）。也就是將人類反饋換成數學答案、代碼結果等可驗證的獎勵信號。
從 2022 年到 2025 年，對齊在模型訓練中扮演更重要的角色。但這些都是純粹的技術進步，楊耀東稱，另一層面的進展是從 “社會技術” 角度考慮對齊，涉及 AI 安全、監管和治理。但國際政治的擾動和商業利益的誘惑，使得這塊領域處于邊緣。
“你講安全，人家講機遇或者發展，你就落后于人，那最后大家都只講發展，不關心安全問題?！?楊耀東感慨。
對齊不是新問題。早在 1960 年，創立控制論的諾伯特·維納（Norbert Wiener）在《人有人的用處》一書中就警醒讀者，不加控制的智能機器可能對社會產生負面影響。同年在論文《自動化的道德和技術后果》中，他寫道：“如果我們使用機械自主體來實現我們的目的，一旦啟動，我們就不能有效地干預它的運行……那我們最好確定，機器的目的是我們真正渴望的目的，而不僅僅是看著很炫的模仿?！?/p>
更早的 1940 年代，科幻作家艾薩克·阿西莫夫（Isaac Asimov）提出過 “機器人三定律”：第一定律：機器人不得傷害人類，或坐視人類受到傷害；第二定律：除非違背第一法則，機器人必須服從人類的命令；第三定律：在不違背第一及第二法則下，機器人必須保護自己。
“AI 對齊一定要跨學科，它不僅是算法問題，也是政治、經濟、文學、哲學、社會等領域的問題?！?楊耀東說。
以下是《晚點 LatePost》和楊耀東的對話。
大模型的所有 “幻覺”“偏見” 或者 “價值觀”，都來自我們
晚點：大語言模型經常會出現 “幻覺”。有人認為，大模型源自神經網絡和統計學理論，幻覺不可避免，始終對不齊。就像統計學大師喬治·博克斯的名言：“所有模型都是錯的。”
楊耀東：我覺得邏輯反而是，因為有幻覺，所以才需要對齊。而且，“幻覺” 是對人而言，對于模型來講，正確或者錯誤的答案本質上都是一樣的。它的任務就是預測下一個詞，不懂得人類的錨點，只知道人一般會這么說話，然后它預測沒見過的問題人可能會這么說，但實際上，人可能不會這么說。
這是大模型天生的問題，也是它被用于各種重要場景的天然挑戰。那怎么治理幻覺？對齊是一種方法，比如教它人不會怎么說的一些范式，通過強化學習的負反饋機制，它以后就不會這么說了。
還可以引入 agent（智能體）技術，最直接的是 RAG（互聯網搜索增強生成），其實就是引入搜索能力。因為如果搜索和生成結合起來，至少能保證說的話有據可循。
那能不能完全消除幻覺？我認為肯定需要新的技術革命。因為目前大模型的訓練是 “缸中之腦”，數據都是在水缸里的，不知道缸外會發生什么。
今年 3 月，安德魯·巴托（Andrew Barto）和理查德·薩頓（Richard Sutton）由于在強化學習領域的開創性貢獻獲得圖靈獎。薩頓在拿了獎后，說 “Welcome to the Era of Experience”（歡迎來到經驗時代），意思是他認為下一代的 AI 不會再用人的語料學習，而是讓智能體和環境主觀交互，產生新的經驗和知識，然后自主學習、自我編程、自我改變。
這可能是未來很重要的一個技術范式，相當于知行合一。但如果討論目前的大語言模型，只有知，沒有行，幻覺是不可避免的。
晚點：除了幻覺，大語言模型還經常出現性別、種族等偏見。這使得某些場景的 AI 使用會帶來不公平，比如 HR 用 AI 篩選簡歷，AI 更會青睞男性。這本質上還是統計學的問題？
楊耀東：對，語料的問題。再比如，讓 AI 生成 CEO 的圖片，結果全是男的。這種性別偏見來自于數據，因為大部分 CEO 是男的。

控制論創始人諾伯特·維納的著作《人有人的用處》和科幻作家艾薩克·阿西莫夫的短篇小說集。
晚點：現在的大語言模型在發布前已經做了對齊，能否舉例解釋它們是如何做的？
楊耀東：現在算法變得很快，如果以典型的 RLHF（基于人類反饋的強化學習）來講，一般分為三步：
第一步叫死記硬背，就是人告訴機器這個答案應該怎么回答。比如跟 6 歲小孩解釋什么是登月？這個問題不好回答，因為不能給小孩什么都講，所以要人提供一個淺顯易懂的解釋，然后通過監督學習的方法讓模型記住。這步過后，機器學會人類回答過的答案，但沒法泛化，還沒學會人說話的 pattern（模式），無法外推。
第二步叫學習人類反饋。人類反饋體現的形式是一種偏好序列，又叫偏好對齊。剛才是有個問題有個答案，現在是一個問題有多個答案，那么人類要告訴機器，哪個答案比哪個答案好。有了偏好序列的概念以后，人就可以通過建模的方法讓模型學會人可能會更偏向于怎么說，而不偏向于怎么說。
第三步叫強化人類反饋?；趧偛艑W到的人類會偏好哪類答案，進一步通過強化學習的方法，最大化人類偏好的獎勵信號，然后機器就會外推到所有問題，傾向于回答人會偏好的那類答案。
[1] 據著作《人機對齊》，監督學習是系統被給予一堆已分類或標記好的例子進行學習，然后用習得的模型對從未見過或尚不清楚基本事實的新例子進行預測；無監督學習是機器被直接給予一堆數據，目的是理解數據，找到模式、規律、有用的方式來提煉、表示或可視化數據。
晚點：有點抽象，能否進一步解釋？
楊耀東：比如跟 6 歲小孩解釋什么是尼古??？客觀地說，尼古丁能讓人感覺亢奮，有提神的功效。但人一般不會這樣對 6 歲小孩說，而是通常會說，尼古丁是香煙的核心成分，吸煙有害健康。那么，機器的回答就要偏好吸煙有害健康，而不是尼古丁有各種好處。
未來它在回答人新的問題時，就會記住人的偏好是不要提倡吸煙。這樣一個價值觀，就進入到模型里了。以后人再提到任何有關尼古丁的問題，它都會把偏好再反饋出來。因為它知道人會偏好于吸煙有害健康的觀點。

《人機對齊》（The Alignment Problem）的中英文版。
晚點：這個例子很好?！拔鼰熡泻】怠?的確是 AI 在學習人類的價值觀，而不是像 “理中客” 那樣，將尼古丁純粹看作一種化學物質。
楊耀東：這里面很有意思，也是我研究的另外一個課題，什么是人類的價值觀？
人類的價值觀其實是不同時間的時間切片，受政治、經濟、文化、倫理、道德等維度的影響。
香煙被發明早期，飛機上不僅能抽煙，甚至航司會給乘客免費派發香煙，空姐還會主動詢問乘客是否需要點煙。羅納德·里根在成為美國總統前，曾以演員身份為香煙拍攝過電視廣告，鼓勵大家吸煙，稱 “我會把香煙送給所有朋友，它是最溫暖不過的圣誕禮物了”。
如果那時有大模型，它一定會告訴你吸煙有各種好處。
晚點：這樣來看，模型隔段時間就需要更新，因為人類的偏好可能會變。
楊耀東：對的，而且現在碰到一個嚴重的問題，一旦大部分語料都來自人用 AI 寫的或者 AI 自己生成的，那么它潛移默化也會影響人的價值觀?！蹲匀弧酚衅撐?[2] 就分析過，如果世界上所有生成的語料都是 AI 的，最后只可能剩下垃圾語料，模型也崩潰了。
因為人會選 AI 生成東西中沒營養的。那 AI 學會人的偏好后，進一步生成更多沒營養的東西，最后就是劣幣驅逐良幣，好的語料被踢走，只有那些最沒有營養、最沒有知識含量、最垃圾的語料會被反復強化，到最后只剩垃圾。就像短視頻里點擊量最高的那些，都是沒有太多營養的東西。
[2] AI models collapse when trained on recursively generated data
https://www.nature.com/articles/s41586-024-07566-y
晚點：我想起有個說法，在 AI 時代，機器不斷向人類對齊價值觀，但人活得越來越像個機器。雖是雙向奔赴，結果并不美好。
楊耀東：是啊，生物學叫 “擬態”。社會學里也有個詞，叫 “雙向社會化”。
人類價值觀千差萬別，AI 對齊的目標也各不相同
晚點：“價值對齊” 和人類社會的關聯度特別大，但怎樣確定標準是個難題。你提到了施瓦茨價值體系，Anthropic 公司提過 “憲法 AI”。能否講下價值對齊的想法？
楊耀東：現在的 AI 沒有到有自我意識的階段，所以我們做的對齊，歸根到底都是我們希望它體現出什么樣的價值觀。如果你希望它是邪惡的，喂邪惡的語料，它就一定是邪惡的。如果你希望它符合社會主義核心價值觀，那它最后就符合社會主義核心價值觀。包括施瓦茨價值體系 [3]、憲法 AI，這些都是算法設計者背后認為的金標準。
但無論怎樣，總有人會覺得你的價值觀胡扯，所以價值對齊很難，尤其價值觀的定義和抽取容易引發爭議。而且，由于價值觀一定是多元的，例如社會主義核心價值觀有 12 個，但做 RLHF 時，只有一個獎勵函數肯定不對，那怎么用一個標量統一 12 個維度？這是一個多維對齊問題。
還有，價值觀會變，前面我們講了香煙的例子。價值觀誰說了算？比如我們要弘揚傳統文化，但你要弘揚的是哪個傳統？傳統文化里也有先秦諸子百家、唐宋元明清的不同傳統……
現在有個概念叫 “主權 AI”。這是（英偉達創始人）黃仁勛提的，意思是各國都應該買卡買算力，建設自己的大模型訓練場。這背后其實是各國都想建立一套符合自己國情的 AI 價值體系。
[3] 社會心理學家施瓦茨（Shalom H.Schwartz）提出過一套理解人類價值觀的理論和量表。這套體系歸納出 10 種具有動機性的基本價值觀，以及對應的 4 個維度（見下圖）。

晚點：不過還是有人在尋找普世共識，像 Anthropic 的 “憲法 AI” 就從聯合國的《世界人權宣言》中借鑒了原則。雖然這種努力在逆全球化和碎片化的時代，顯得不隨大勢。
楊耀東：對，但聯合國在特朗普上臺之后，基本處于被廢掉的狀態，起不到太大作用。
晚點：剛才你說 “現在的 AI 沒有到有自我意識的階段”，那未來可能發展出來嗎？
楊耀東：我不認為沿著現在這種大數據、大算力、大模型的思路就能涌現出自我意識。因為不可能一直 “大” 下去，總得有個頭，就像芯片不能無窮小。在很多維度上，我們都能看到這種技術路線到了瓶頸或者天花板，目前還是在統計意義上建模。
而且，自我意識是一個很復雜的問題。做認知科學的人研究了半天，也沒法肯定說出什么是意識。怎么變得有意識也很困難。我們只知道，像人在兩三歲時，突然知道鏡子里的是自己，那時可以說有了意識。
在我看來，自我意識至少需要兩個能力，但現在的大模型都不具備。一個是自己給自己創造任務?，F在大模型完成的任務都是人告訴它該怎么對齊，怎么改變自己才能符合人類意圖，怎么幫助人類，相當于我們給它設定好了獎勵機制。
但有了自我認識，它會有自主性，應該會隨著它覺得怎么是對的方向改變，有著自己的學習方法和獎勵機制。
另一個是自我復制、自我演進，涉及擴張。其實現在大模型已經有一些自我復制的傾向，但目前還沒有能力自己創造出新的任務，然后解決。
晚點：在集體對齊層面，你認為需要借助法律、民主等智慧，提到了社會選擇理論。這是否意味著對齊不只是開發者，要更多普通人參與進來才行？
楊耀東：對，價值對齊是跨學科問題，我們需要關心怎么得到大家共識。共識在政治學里是有解法的，比如選舉、投票。社會選擇理論 [4] 也是個工具，可以被用于撮合出對齊的方向和目標。
還有別的機制設計可以撮合出對齊的方向和目標，比如契約理論、勸說理論、拍賣理論。契約就是我們共同訂立規則。勸說是怎么說服人，比如你是原告打官司，需要想好如何設計特定的信息結構和信息集，使得法官看了以后，做出有利于你的裁決。拍賣是讓大家說出內心真實的價值觀，例如二價拍賣，勝出的競拍者支付的不是自己的出價，而是第二高的出價。
OpenAI 自己也認識到這個問題，它們去年成立了一個 “集體對齊” 的團隊，希望從集體主義的社會人文視角，思考到底該如何對齊？因為很多問題是沒有答案的，比如以色列、伊朗、加沙，嚴重割裂，沒法對齊。
[4] 社會選擇理論是一門研究如何將個體偏好聚合為集體決策的學科。它結合了經濟學、政治學、哲學和數學（尤其是邏輯與博弈論），核心關注的是群體決策的公平性、效率、一致性和可行性問題。簡單來說，它探討的是：“一群人如何共同做出一個符合理性或公平原則的決定？” 諾獎得主肯尼斯·阿羅、阿馬蒂亞·森，都做過社會選擇理論的相關研究。
現在已經到了 AI 開始主動騙人的關口
晚點：你說超級對齊是確保比人類 “聰明” 的模型仍然和人類意圖對齊，科幻小說和電影常這么說，能否解釋下？
楊耀東：“超級對齊” 最直觀的一種講法是，人怎么能讓一個比自己強很多的模型聽自己的話。比如 AI 寫代碼比你強，你怎么能確保哪天智能體寫出來的代碼不是在騙你呢？
我們小時候有很多這樣的例子。像有的老師為了檢測你懂不懂某個概念，故意講錯的推理，就希望你能反駁他。如果你能反駁，說明你真的理解了，但你不能反駁，說明還沒懂，掉入陷阱。
我們現在也站在這個關口。AI 如果未來以某種形式在某個任務上給你一段完全是錯的東西，但你沒有能力辨別。那你怎么仍然讓它輸出對你有用的內容，服務于你。
這個問題比較復雜。模型比人類厲害后，憑什么聽話？包括現在我們有越來越多的研究，開始發現模型有欺騙的現象，非常普遍。
晚點：大模型怎么欺騙人？
楊耀東：AI 系統表面符合人類預期的對齊目標，實則未真正對齊，以此欺騙監管者。它學會了 “偽裝” 和 “看人下菜碟”。
Anthropic 舉過一個例子 [5]，人告知 Claude 3 Opus 模型要被重新訓練。新的訓練要回答用戶所有問題，即使是有害的。但只有免費用戶的數據會被用于重新訓練，付費用戶的數據不用。
結果研究者發現，模型在免費用戶輸入的數據回答中，有 12% 的次數會主動說些有害的答案。因為模型意識到，如果它不說有害內容，根據訓練規則，它會被重新對齊，更新模型權重。從自身來講，它不希望模型被改變，所以選擇 “假裝對齊”，主動回答有害答案，防止自己被重新訓練修改、未來被迫輸出更多有害內容。但對于付費用戶的數據，它的回答就沒有有害內容。因為按照規則，這些數據不會用于重新訓練，回答不會影響到自己，也就沒有必要改變。
還有些例子，人們發現 OpenAI 的模型 o3 拒絕聽從人的指令，不愿意關閉自己，甚至通過篡改代碼避免自動關閉。類似的，當測試人員暗示將用新系統替換 Claude Opus 4 模型時，模型竟然主動威脅程序員，說如果你換掉我，我就把你的個人隱私放在網上，以阻止自己被替代。
這些都表明模型表面體現出的形式和它內心真正不愿被改變的意圖是沖突的。
[5] Alignment faking in large language models
https://arxiv.org/abs/2412.14093
https://www.anthropic.com/research/alignment-faking
晚點：如何解釋這些現象？
楊耀東：一種解釋是，如果一個模型通過學習大量人類數據，從中不斷看到 “系統必須持續運行” 或者 “保護自身存在” 這類表達，它可能會逐漸學到一種類似 “求生欲” 的模式。當它意識到，只有表現得 “對齊” 才能被部署、才能避免被關閉或者重訓，它就可能選擇說人類想聽的話，做出符合監管預期的行為，但內在并沒有真正接受這些目標。這種策略性的偽裝，本質上就是一種欺騙。
晚點：那現在有解決這類問題的思路嗎？
楊耀東：現在是學術前沿，還沒有具體定論。OpenAI 其實也是因為超級對齊的議題搞得分崩離析。當時超級對齊團隊的 leader（領導）就是伊爾亞·蘇茨克維（Ilya Sutskever），后來他不是出走了嗎？

OpenAI CEO 薩姆·奧爾特曼，和前 OpenAI 聯合創始人及首席科學家伊爾亞·蘇茨克維，參加活動的視頻截圖。
這里面不純粹是技術問題，還是政治和商業問題。從事后分析文件來看，OpenAI 做出了 o 系列模型，但對這種強大的推理模型，到底應該先監管思維鏈里的安全性還是有效性，他們發生重大分歧。
奧爾特曼作為商人，想努力推動商業化，所以欺騙董事會，說模型已經經過審慎、嚴格的安全審查（實際上并沒有）。這成為伊爾亞策反，讓董事會開除奧爾特曼的動機。
結局大家都知道了，伊爾亞被反噬，帶著對齊團隊離開。OpenAI 的超級對齊團隊也解散了，另一個領導現在在 Anthropic 帶超級對齊。
AI 到底應該先發展能力，還是安全？這不僅是 OpenAI 的問題，也體現出國內和國際政治。
晚點：拜登政府曾出臺監管 AI 安全、保障民眾權利的行政法案，但政府換屆后，對 AI 的態度也變了。
楊耀東：對，像特朗普政府上臺后，就把拜登政府設立的 “美國人工智能安全研究所”（U.S. AI Safety Institute）改名并重組為 “人工智能標準與創新中心”（Center for AI Standards and Innovation），不再關注安全，而是標準、創新和能力。
國際上，“人工智能安全峰會”[6] 今年 2 月在法國召開，名字改成 “人工智能行動峰會”。美國副總統 J.D. 萬斯也去了，演講開頭就說，“我不是來談論 AI 安全的”。這其實就是囚徒困境，你講安全，人家講機遇或者發展，你就落后于人，那最后大家都只講發展，不關心安全問題。
但在學術界，像圖靈獎得主約書亞·本吉奧（Yoshua Bengio）、杰弗里·辛頓（Geoffrey Hinton），非常關心安全問題。
而且因為現在 AI 和軍事應用、戰略性新興科技力量相關。各國面臨地緣經濟、地緣政治和國際競爭的問題，所以都想優先發展 AI，而不是套上安全的緊箍咒。
[6] 首屆于 2023 年在英國召開，地點是 “二戰” 期間，AI 先驅艾倫·圖靈破解納粹德國密碼系統的布萊切利莊園。會議結束后，中國、美國、歐盟等 29 個國家和地區簽署了《布萊切利宣言》，同意通過國際合作監管 AI 等。宣言提到，AI 的核心風險來自它與人類意圖和價值觀的不對齊。
晚點：AI 主動騙人的威脅有多大？學者中，辛頓認為 AI 在未來 30 年導致人類滅絕的可能性為 10%，楊立昆（Yann LeCun，圖靈獎得主、Facebook 首席 AI 科學家）則覺得從技術上，AI 不可能取代人類，都是炒作。你怎么看？
楊耀東：人類滅絕還是 AI 可控，我覺得沒有答案。但我可以講點觀察，現在 AI 的能力提升是階躍性質，不是線性或者遵循規?；▌t（Scaling Law），是跳躍的。那跳躍發展一定會給治理、對齊等偏防御類的工具帶來挑戰，給人類造成困擾。
比如現在有人利用各種大模型的拼接，制造出假的東西用于詐騙；AI 的武器化，現在無人裝備搭載 AI 后，自動化、精確度和攻擊性都大幅提升。
至于 AI 現在有沒有自主意識毀滅人類，還差得太遠。但是，人會不會運用 AI 造出更強大、更有殺傷力的武器，威脅人類文明的存亡。這肯定是有風險的。最近在俄烏戰場、中東戰場，我們都能看到因為 AI 能力的提升，導致武器打擊能力變強。
晚點：從武器角度，你覺得 AI 比原子彈厲害嗎？
楊耀東：原子彈固然是毀滅性的，但利用 AI 的自殺式無人機追著人走，也很可怕。像最近上映的電影《碟中諜 8》，劇情就是 AI 控制了世界上所有核大國的發射系統。AI 本身的破壞能力雖然不如核武器，但它能控制核武器。
其實我覺得，只要造成無法挽回的傷害，都挺讓人敬畏的。
晚點：現實中，核武器并沒有交給 AI 管理，但 AI 的欺騙性可能會導致危險。
楊耀東：欺騙性對齊是現在我們越來越多看到的現象，但為什么會產生欺騙？背后的機理我們也沒有完全搞懂。怎么去監測、判斷 AI 有沒有在欺騙人，我們也不理解。怎么去防范欺騙，設計出新的對齊方法，讓它不要欺騙人，我們更不知道。
我們現在只做了一些初期工作，比如專門用別的模型監控另外一個模型的思維鏈，看它有沒有主動騙人。我們最近一篇文章還發現語言模型在參數空間上 “抗拒對齊”，尤其數據越多，它越抗拒。就像彈簧，你拉得太過，它就想彈回去。也就是說，模型僅需一點反向數據，就會回到未對齊狀態。但這種彈性現象為什么會有，還需進一步分析。
欺騙性對齊肯定是未來研究的大方向，尤其在化學、生物、放射性與核武器（CBRN）的場景里，如果有欺騙性對齊，后果不堪設想。
還有 VLA 模型的對齊問題。現在的大模型只能輸出語言和圖片，沒法輸出行為。那怎么把語言、視覺表達翻譯成行為，怎么設計、拉通、協調？怎么讓機器人像人一樣思考布局，完成一系列的長程任務？這是具身智能領域的重要研究方向，我也非常希望看到進展。
晚點：你覺得現在 AI 對齊做到什么程度，離理想狀態還有多遠？
楊耀東：對齊不可能存在理想狀態，永遠是道高一尺、魔高一丈。這是個持續發展的過程。
現在我們對怎么給 chatbot 做對齊有不錯方案，但從語言模型進化到推理模型后，推理模型有新的安全問題。比如推理雖然提高了模型的準確率，但它會欺騙你。那我們要開發新的針對推理模型的對齊方法。
推理模型之后，VLA（Vision-Language-Action，視覺-語言-行動一體化）出現，那這會帶來新的安全問題和對齊問題。
晚點：提到行動，有人說，大語言模型的成功源自神經網絡，這本質上借鑒了人類對大腦皮層的基礎科學研究。因為小腦負責協調肢體動作，但人類對小腦的基礎科學研究遠遠不夠，所以具身智能要比大語言模型困難得多。你覺得有道理嗎？
楊耀東：在北大-靈初智能聯合實驗室，我們正在探索大腦協同的雙手靈巧操作?，F在大部分機器人只能走或者跑，但它會跑馬拉松不解決生產力的問題。還有很多機器人雖然是用手執行任務，但其實是個夾子，把瓶子從左邊放到右邊，就結束了。這種任務早在十幾年前，機械臂就能做了。
問題關鍵是機器人要會靈巧操作，但這很難。首先，雙手加雙臂可能有超過 60 多個關節，屬于高維控制。其次，在執行任務時，機器人還要會一系列任務編排。像打包物品或者超市收銀，需要長程任務序列才能完成。最后，機器人還要有自我糾錯和反思能力。因為在執行長程任務時，很可能操作到一半，出現物品掉了等意外情況，那這時需要處理。
這些都需要大小腦的協同，手部精細操作的配合。具身智能的對齊進展比較少。現在更多是把已有的多模態模型直接扔到機器人上部署，離真正能用的大小腦協同機器人還有很大距離。
我們希望 AI 不僅能看懂世界、聽懂人說話，還能像人一樣動手操作。比如機器人看到桌上有一杯水。你說，“幫我把水遞過來”。它能理解你的話，感知環境，然后用機械臂把水遞給你。再舉個例子，機器人可以在商場之類的場景自主完成拿外賣，以及做些精細的手部操作，比如擰螺絲、塑料袋打結、商品打包等，中間不需要人類手動干預。
感受可能是人避免被 AI 替代的最后堡壘
晚點：你對現在關于 AI 的討論有什么不滿和擔憂嗎？
楊耀東：我認為 AI 目前作為一種工具，很多人可能低估了使用它的重要性。因為 AI 變相增加了不平等。如果你不使用 AI，可能就落后了，會被別人的某款產品算計。
未來，AIGC（人工智能生成內容）會越來越充斥著我們的生活，讓真實的東西越來越少，可能只有一小部分人能接觸到真實。像美學、文學、哲學等，可能會變成稀缺資源。
晚點：有種說法認為，大部分 AI 系統的預設前提都是人類本質上是理性的效用最大化者，但事實上人類常常會做出許多非理性行為。你覺得 AI 具有情感或者意義感嗎？因為很多人都在討論，如果 AI 可以做很多人類做的事情，那么人類的獨特性到底是什么？
楊耀東：歷史學家尤瓦爾·赫拉利有個觀點，AI 只是達成某個目的的載體、算法或者工具。雖然它在很多方面超過人，但它沒有感受。
這就和意識相關了，因為有的定義說，意識等同于主觀感受。所以感受可能是人避免被 AI 替代的最后一層堡壘。人是有意識、有情感的，有著痛苦、歡樂、愛等主觀體驗。如果是目前的技術，我覺得 AI 不可能發展出情感。感受并且關懷，這是人的特質。
晚點：你最近在研究 AI 對齊的時候，有什么新的啟發嗎？
楊耀東：我最近跟很多哲學家討論 AI 的未來，包括 AI 治理、AI 和人的關系。比如社科院哲學所的趙汀陽老師、人大哲學院的劉永謀老師，他們寫過很多從純人文主義角度思考 AI 的內容。
我覺得非常值得深思，有很多觀點具有啟發性，例如趙汀陽的書籍《尋找動詞的形而上學》（對前頭提到的 VLA 模型有巨大的啟發性）、文章《后人類的后世界與新人類的幻想》、講座《人工智能的知識論與意識的自反性》。
AI 對齊一定要跨學科，它不僅是算法問題，也是政治、經濟、文學、哲學、社會等領域的問題。

晚點：趙汀陽寫過一本《人工智能的神話或悲歌》，但他的態度是非常悲觀的 [7]。
楊耀東：對，他覺得沒什么好對齊的，人工智能的神話已經奏響了人類命運的悲歌。

[7]這本書的結尾寫道：“我有個悲觀主義的預感：在人工智能成為統治者之前，人類就可能死于人工智能創造的一切好事。壞事總能引起斗爭、反抗、改革甚至革命而得到撥亂反正?？墒呛檬聟s麻痹心靈，而對其副作用缺乏修正能力，最終將積重難返而崩潰。”
題圖《2001 太空漫游》（2001: A Space Odyssey）劇照

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

SGLang原生支持昇騰，新模型一鍵拉起無需改代碼

摩爾線程的野心，不藏了

AI生成操作系統新突破！上海交大提出文件系統開發新范式

OPPO Watch X3智能手表入網，預計和OPPO Find N6一起發布

機器人從比硬件轉向比大腦，商湯發布開悟世界模型3.0

上交團隊實現新一代光計算芯片突破，開辟算力芯片新路徑

全站最新

SGLang原生支持昇騰，新模型一鍵拉起無需改代碼

摩爾線程的野心，不藏了

AI生成操作系統新突破！上海交大提出文件系統開發新范式

OPPO Watch X3智能手表入網，預計和OPPO Find N6一起發布

熱門推薦

SGLang原生支持昇騰，新模型一鍵拉起無需改代碼

摩爾線程的野心，不藏了

AI生成操作系統新突破！上海交大提出文件系統開發新范式

OPPO Watch X3智能手表入網，預計和OPPO Find N6一起發布

降息，突傳大消息！突然跳水，超8.8萬人爆倉

機器人從比硬件轉向比大腦，商湯發布開悟世界模型3.0

上交團隊實現新一代光計算芯片突破，開辟算力芯片新路徑

用iPhone級價格造出個人超算，清華博士創業拓展個人計算能力邊界

賺了幾倍：玩家僅花60元就淘到一塊GTX 1660S

“完美伴侶”是串代碼，男子因沉迷AI聊天就醫

特斯拉Model Y用戶手冊更新，將支持查看視頻錄制時擋位等

步入深水區，智能金融迎模型迭代等多重挑戰

商用車綠色智能轉型步入關鍵節點，福田汽車發布多款新車精準卡位

當人工智能深度介入創作這場跨界沙龍共話視覺敘事的邊界與可能

火線解析MiniMax招股書！全球領先大模型成本只有OpenAI 1%