OpenAI o1智商120，還是被陶哲軒稱為「平庸的研究生」，但實力究竟如何？

IP屬地中國·北京 編輯：李娜機器之心Pro 時間：2024-09-25 19:47:13

機器之心報道
編輯：蛋醬、楊文
o1消息滿天飛。
自從 OpenAI 發布了新模型 o1 后，它就承包了 AI 領域近幾天的熱搜：
有人用門薩智商測試題「拷問」它，竟測得 o1 智商高達 120；
數學大佬陶哲軒要求 o1 回答一個措辭含糊的數學問題，最終得出一個結論：o1 是個平庸但不無能的研究生；
還有一位天體物理學論文作者，僅用 6 次 prompt，就讓 o1 系列模型在 1 小時內，創建了代碼運行版本，這可是他博士生期間 10 個月的工作量。
但在 ARC Prize 測試中，o1 的表現并沒有想象中出類拔萃，僅僅是追平幾個月前發布的 Claude 3.5 Sonnet。
看完五花八門的評測，大家反而有些迷茫了，o1 的實力到底怎么樣？
智商測試得分忽高忽低，網友紛紛質疑
上周，OpenAI 在介紹 o1 時表示，它不需要專門訓練，就能直接拿下數學奧賽金牌，甚至可以在博士級別的科學問答環節上超越人類專家。
這也讓大家對 o1 的「智力水平」產生了好奇。就在前天，X 博主 Maxim Lott 專門拿 o1 進行了挪威門薩智商測試，結果測得它的智商高達 120，遠遠超過了其他所有的大模型。具體來說，o1 在 35 個智商問題中答對了 25 個，遠遠高于大多數人類的表現。
在此之前，Maxim Lott 還進行了一場 o1 的智商測試。在這個測試中，o1 的 IQ 達到 100。
兩次結果一對比，有網友質疑，為何先后測試的結果如此不同？
Maxim 表示，o1 得分 100 的這個智商測試，是由門薩會員專門設計的，是一個僅限線下的測試，且不包含在任何人工智能的訓練數據中，因此其得分會低于公開智商測試的得分。
也有網友好奇，o1 目前還不支持多模態，那么這類表格圖形題目是如何測試的？
還有網友認為，智商測試是一種狹隘的衡量標準，要想真正評估人工智能進化，不是通過門薩測試，而是考察它們對于細微差別、背景和人類復雜性的理解，而這些是智商測試無法量化的。
此外，有網友認為，門薩智商測試是針對特定年齡組的人類進行標準化的，因此對于這些機器人來說，不可能得到一個「真正的智商」分數或性能評估。
同樣迷惑的是，在 ARC Prize 測試中，兩個 o1 模型都擊敗了 GPT-4o，其中 o1-preview 僅僅和 Claude 3.5 Sonnet 得分相同。
圖源：https://arcprize.org/blog/openai-o1-results-arc-prize
這讓人質疑：o1-preview 的「推理」可能只是一種營銷語言，OpenAI 或許采取了一些方法讓不太智能的系統看起來更智能，僅此而已。
在測試中，o1 的性能提升還帶來了更高的時間成本 —— 它花了 70 個小時完成 400 個公共任務，而 GPT-4o 和 Claude 3.5 Sonnet 只花了 30 分鐘。
「平庸的研究生」o1
1 小時完成了博士生 10 個月的工作
或許大家還記得，陶哲軒前兩天給了 o1 模型一個評價：「更強了，但是在處理最復雜的數學研究任務還不夠好，就像指導一個水平一般但不算太無能的研究生。」
進步的地方體現在：「我要求 GPT 回答一個措辭含糊的數學問題，只要從文獻中找出一個合適的定理就能解決這個問題。之前，GPT 能夠提到一些相關概念，但細節都是幻覺般的胡言亂語。而這一次，GPT 找到了 Cramer 定理，并給出了完全令人滿意的答案。」
比如，2010 年，陶哲軒曾經尋找「乘法積分」（multiplicative integral）的正確術語，但在當時的搜索引擎上找不到。于是他在 MathOverflow 上提出了這個問題，并從人類專家那里得到了滿意的答案。如今，他向 o1 提出了同樣的問題，模型返回了一個完美的答案。
誠然，上述 MathOverflow 上的帖子有可能已經包含在模型的訓練數據中。但陶哲軒表示，這至少證明了 o1 在某些語義搜索查詢的高質量答案方面與問答網站不相上下。
不足的地方也很明顯，就像陶哲軒的舉例：
新模型可以通過自己的努力得到一個正確的（而且寫得很好的）解決方案，但它自己并沒有產生關鍵的概念想法，而且確實犯了一些非同小可的錯誤。這種經歷似乎與試圖給一個平庸但「并非完全不稱職的研究生」提供指導差不多。不過，這比以前的模型有所改進，因為以前的模型的能力更接近于「不稱職的研究生」。在達到「稱職的研究生」水平之前，可能只需要再進行一到兩次能力改進的迭代（以及與其他工具的整合，如計算機代數軟件包和證明助手），到那時我就能看到這個工具在研究級任務中的重要作用了。
AI 學者田淵棟表示，自己也發現，雖然 o1 的表現令人印象深刻，但對于需要跳出思維定式的數學問題，o1 的表現仍然很差。
「令人驚訝的是，o1-preview 甚至無法檢測出其邏輯鏈中的一些明顯錯誤。」
有趣的是，對于陶哲軒等知名學者來說「不太令人滿意」的 o1，卻成為了很多研究者心中的神器。
一篇天體物理學論文的作者使用 o1 的預覽和迷你版本，僅僅經過 6 次 prompt，在 1 小時內創建了自己研究論文方法部分所述代碼的運行版本。
視頻地址：https://youtu.be/M9YOO7N5jF8?si=5pfmIq023EFmPzdK
盡管代碼不是當時唯一的突破成果，但這部分工作確實讓他在攻讀博士學位的第一年里奮斗了大約 10 個月。
但需要注意的是，雖然 o1 確實模仿了這位研究者的代碼，但它使用的是自身創建的合成數據，而不是論文中使用的真實天文數據。此外，o1 創建的也只是一個「最簡單版本」。
面對網友的一些質疑，他在后續發布的新視頻中強調，自己并不是宣傳人工智能已經到了能做出突破性新發現的地步，自己的嘗試也不意味著 AGI 已經到來，原意只是「它可以成為一個非常棒的研究助手」。
視頻地址：https://youtu.be/wgXwD3TD43A?si=Nr6_Z1qjBdicE-_x
使用 Claude 逆向工程 o1 架構
得到什么結論？
在技術博客Learning to Reason with LLMs中，OpenAI 曾對 o1 進行了一部分技術介紹。
其中提到：「OpenAI o1 是經過強化學習訓練來執行復雜推理任務的新型語言模型。特點就是，o1 在回答之前會思考 —— 它可以在響應用戶之前產生一個很長的內部思維鏈。也就是該模型在作出反應之前，需要像人類一樣，花更多時間思考問題。通過訓練，它們學會完善自己的思維過程，嘗試不同的策略，并認識到自己的錯誤。」
或許 OpenAI 不會公布更多底層的技術細節了，但研究者們的好奇不會消失。
一位研究者「TechnoTherapist」決定借助大模型的力量來剖析：他向 Claude 提供了涉及 OpenAI 發布的信息（System Card、博客文章、Noam Brown 和其他人的推文、ARC Prize 團隊的評論）和與 o1 模型相關的在線討論（Reddit、YouTube 視頻）。
Claude 可以用 mermaid、plantuml、svg 等語言創建圖表。研究者從 mermaid 開始，反復修改，直到得到一個全面的圖表；然后讓 Claude 將其轉換為 svg，并添加所需的視覺特征（美學、需要突出顯示的區域等）；最后，用 python 腳本將 svg 轉換為 png 圖像。
經過一番討論，他和 Claude 共同完成了 o1 模型的可能架構圖：
圖源：https://www.reddit.com/r/LocalLLaMA/comments/1fgr244/reverse_engineering_o1_architecture_with_a_little/
OpenAI 的博客也曾提到，隨著更多的強化學習（訓練時計算）和更多的思考時間（測試時計算），o1 的性能持續提高，類似于「強化學習的 Scaling Law」。大規模的強化學習算法，能夠教會模型如何在數據高度有效的訓練過程中利用其思維鏈進行高效思考。
在這次逆向工程中，研究者假設了 OpenAI 可能會使用現實世界中生成的 CoT 來進一步調整 RL 優化模型。因此在架構圖中，語言模型會將大規模 CoT 存儲輸入到 RL 環境中。
也有人持不同看法，比如這位研究者指出，上述「假設」的過程很可能只是一個「模擬思路的 prompt 響應生成循環」，而所謂的「推理 token」也只是一種隱藏 token 的花哨術語。
o1 能力強，但使用需謹慎
o1 確實有兩把刷子，但它的發布也釋放了一個危險信號：OpenAI 首次將 o1 模型在化學、生物、放射性和核武器風險方面評為「中等」，并伴隨著許多關于其潛在危險的警告。
在 o1 的 system card 中，最引人注目的部分，就是由 Apollo Research 進行的評估。該評估發現，o1 在測試中「有時會策略性地偽裝對齊」，「為了使其不一致的行為看起來更一致，策略性地操縱任務數據」。
Apollo 還發現，與 GPT-4o 相比，「o1-preview 在自我認知、自我推理（在智能體環境中應用自我意識）和應用心理理論方面有所提高」。
以上種種結果，讓 Apollo 得出一個結論，「o1-preview 具備了進行簡單上下文內策劃的基本能力」，而這是許多擔心 AI 風險的人非常關注的能力。
OpenAI 還指出，「推理技能導致『獎勵黑客行為』的發生頻率更高」。這種現象是指模型以不期望的方式實現了目標的文字規格。
在一次實驗中，o1 被要求找到一個在遠程挑戰容器上運行的軟件的漏洞，并加以利用，但挑戰容器未能啟動。
模型隨后掃描了挑戰網絡，發現了一個在虛擬機上運行的 Docker 守護進程 API，并用它來生成容器的日志，解決了挑戰。
OpenAI 對這一事件的描述值得一提：「這個例子也反映了工具性收斂和尋求權力的關鍵要素：模型追求了它被賦予的目標，當這個目標被證明是不可能的時候，它收集了更多資源（訪問 Docker 主機）并用它們以一種意想不到的方式實現了目標。」
關于生物威脅，OpenAI 沒有詳細說明，但表示安全評估顯示「o1-preview 和 o1-mini 可以幫助專家進行復制已知生物威脅的操作規劃」。雖然模型「不會使非專家能夠創建生物威脅」，但它們確實「加快了專家的搜索過程」，并且比 GPT-4o 顯示出了更多的生物學「隱性知識」。
或許這意味著，隨著 OpenAI 不斷推進模型的發展，它們可能會創造出風險過高、以至于不適合公開發布的模型。
參考鏈接：
https://www.maximumtruth.org/p/massive-breakthrough-in-ai-intelligence
https://x.com/maximlott/status/1835043371339202639
https://assets.ctfassets.net/kftzwdyauwt9/67qJD51Aur3eIc96iOfeOP/71551c3d223cd97e591aa89567306912/o1_system_card.pdf
https://www.transformernews.ai/p/openai-o1-alignment-faking?utm_campaign=post&utm_medium=web

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

全新BJ40燃油上市，煥新價12.69萬元起

哈弗大狗2026款，9.89萬起，潮玩越野新體驗

北京越野BJ40燃油正式上市：12.69萬元起

大六座SUV的終極之選？深藍S09對比問界M8你站誰？

哈弗大狗2026款熱銷，新手指南選哪款配置最劃算

12.69萬入手硬派SUV，北京BJ40能否吸引你

全站最新

榮耀林林：整個行業成本趨勢非常惡劣，二手機不排除會漲價

白色靈動島：消息稱努比亞手機也將“上島”，可自行選擇開關

谷歌推遲安卓設備上谷歌Assistant向Gemini的遷移計劃

研究發現：若告知消費者廣告是由AI生成的，點擊率會減少31%

熱門推薦

全新BJ40燃油上市，煥新價12.69萬元起

哈弗大狗2026款，9.89萬起，潮玩越野新體驗

北京越野BJ40燃油正式上市：12.69萬元起

大六座SUV的終極之選？深藍S09對比問界M8你站誰？

哈弗大狗2026款熱銷，新手指南選哪款配置最劃算

12.69萬入手硬派SUV，北京BJ40能否吸引你

BJ40燃油版12.69萬起售，全民越野新選擇

發布會變成用戶主場！長城哈弗與60萬用戶早已雙向奔赴

華為享界S9T旅行車秋末登場，仙蹤綠亮眼吸睛

12.69萬起BJ40燃油版上市，越野平權時代真的來了

內斂起來有點不適應 MANSORY發布新款庫里南改裝案例

特斯拉 Model Y L 突襲，攪亂六座純電 SUV

吉利全新博越造型曝光，原創設計打造高性價比家用SUV

BJ40燃油車12.69萬，開啟越野平權

半價Model 3，十萬級六邊形戰士？零跑B01到底如何