亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 智能車 ? 正文

OpenAI o1智商120,還是被陶哲軒稱為「平庸的研究生」,但實力究竟如何?

IP屬地 中國·北京 編輯:李娜 機器之心Pro 時間:2024-09-25 19:47:13

機器之心報道

編輯:蛋醬、楊文

o1消息滿天飛。

自從 OpenAI 發布了新模型 o1 后,它就承包了 AI 領域近幾天的熱搜:

有人用門薩智商測試題「拷問」它,竟測得 o1 智商高達 120;

數學大佬陶哲軒要求 o1 回答一個措辭含糊的數學問題,最終得出一個結論:o1 是個平庸但不無能的研究生;

還有一位天體物理學論文作者,僅用 6 次 prompt,就讓 o1 系列模型在 1 小時內,創建了代碼運行版本,這可是他博士生期間 10 個月的工作量。

但在 ARC Prize 測試中,o1 的表現并沒有想象中出類拔萃,僅僅是追平幾個月前發布的 Claude 3.5 Sonnet。

看完五花八門的評測,大家反而有些迷茫了,o1 的實力到底怎么樣?

智商測試得分忽高忽低,網友紛紛質疑

上周,OpenAI 在介紹 o1 時表示,它不需要專門訓練,就能直接拿下數學奧賽金牌,甚至可以在博士級別的科學問答環節上超越人類專家。

這也讓大家對 o1 的「智力水平」產生了好奇。就在前天,X 博主 Maxim Lott 專門拿 o1 進行了挪威門薩智商測試,結果測得它的智商高達 120,遠遠超過了其他所有的大模型。具體來說,o1 在 35 個智商問題中答對了 25 個,遠遠高于大多數人類的表現。

在此之前,Maxim Lott 還進行了一場 o1 的智商測試。在這個測試中,o1 的 IQ 達到 100。

兩次結果一對比,有網友質疑,為何先后測試的結果如此不同?

Maxim 表示,o1 得分 100 的這個智商測試,是由門薩會員專門設計的,是一個僅限線下的測試,且不包含在任何人工智能的訓練數據中,因此其得分會低于公開智商測試的得分。

也有網友好奇,o1 目前還不支持多模態,那么這類表格圖形題目是如何測試的?

還有網友認為,智商測試是一種狹隘的衡量標準,要想真正評估人工智能進化,不是通過門薩測試,而是考察它們對于細微差別、背景和人類復雜性的理解,而這些是智商測試無法量化的。

此外,有網友認為,門薩智商測試是針對特定年齡組的人類進行標準化的,因此對于這些機器人來說,不可能得到一個「真正的智商」分數或性能評估。

同樣迷惑的是,在 ARC Prize 測試中,兩個 o1 模型都擊敗了 GPT-4o,其中 o1-preview 僅僅和 Claude 3.5 Sonnet 得分相同。

圖源:https://arcprize.org/blog/openai-o1-results-arc-prize

這讓人質疑:o1-preview 的「推理」可能只是一種營銷語言,OpenAI 或許采取了一些方法讓不太智能的系統看起來更智能,僅此而已。

在測試中,o1 的性能提升還帶來了更高的時間成本 —— 它花了 70 個小時完成 400 個公共任務,而 GPT-4o 和 Claude 3.5 Sonnet 只花了 30 分鐘。

「平庸的研究生」o1

1 小時完成了博士生 10 個月的工作

或許大家還記得,陶哲軒前兩天給了 o1 模型一個評價:「更強了,但是在處理最復雜的數學研究任務還不夠好,就像指導一個水平一般但不算太無能的研究生。」

進步的地方體現在:「我要求 GPT 回答一個措辭含糊的數學問題,只要從文獻中找出一個合適的定理就能解決這個問題。之前,GPT 能夠提到一些相關概念,但細節都是幻覺般的胡言亂語。而這一次,GPT 找到了 Cramer 定理,并給出了完全令人滿意的答案。」

比如,2010 年,陶哲軒曾經尋找「乘法積分」(multiplicative integral)的正確術語,但在當時的搜索引擎上找不到。于是他在 MathOverflow 上提出了這個問題,并從人類專家那里得到了滿意的答案。如今,他向 o1 提出了同樣的問題,模型返回了一個完美的答案。

誠然,上述 MathOverflow 上的帖子有可能已經包含在模型的訓練數據中。但陶哲軒表示,這至少證明了 o1 在某些語義搜索查詢的高質量答案方面與問答網站不相上下。

不足的地方也很明顯,就像陶哲軒的舉例:

新模型可以通過自己的努力得到一個正確的(而且寫得很好的)解決方案,但它自己并沒有產生關鍵的概念想法,而且確實犯了一些非同小可的錯誤。 這種經歷似乎與試圖給一個平庸但「并非完全不稱職的研究生」提供指導差不多。 不過,這比以前的模型有所改進,因為以前的模型的能力更接近于「不稱職的研究生」。 在達到「稱職的研究生」水平之前,可能只需要再進行一到兩次能力改進的迭代(以及與其他工具的整合,如計算機代數軟件包和證明助手),到那時我就能看到這個工具在研究級任務中的重要作用了。

AI 學者田淵棟表示,自己也發現,雖然 o1 的表現令人印象深刻,但對于需要跳出思維定式的數學問題,o1 的表現仍然很差。

「令人驚訝的是,o1-preview 甚至無法檢測出其邏輯鏈中的一些明顯錯誤。」

有趣的是,對于陶哲軒等知名學者來說「不太令人滿意」的 o1,卻成為了很多研究者心中的神器。

一篇天體物理學論文的作者使用 o1 的預覽和迷你版本,僅僅經過 6 次 prompt,在 1 小時內創建了自己研究論文方法部分所述代碼的運行版本。

視頻地址:https://youtu.be/M9YOO7N5jF8?si=5pfmIq023EFmPzdK

盡管代碼不是當時唯一的突破成果,但這部分工作確實讓他在攻讀博士學位的第一年里奮斗了大約 10 個月。

但需要注意的是,雖然 o1 確實模仿了這位研究者的代碼,但它使用的是自身創建的合成數據,而不是論文中使用的真實天文數據。此外,o1 創建的也只是一個「最簡單版本」。

面對網友的一些質疑,他在后續發布的新視頻中強調,自己并不是宣傳人工智能已經到了能做出突破性新發現的地步,自己的嘗試也不意味著 AGI 已經到來,原意只是「它可以成為一個非常棒的研究助手」。

視頻地址:https://youtu.be/wgXwD3TD43A?si=Nr6_Z1qjBdicE-_x

使用 Claude 逆向工程 o1 架構

得到什么結論?

在技術博客Learning to Reason with LLMs中,OpenAI 曾對 o1 進行了一部分技術介紹。

其中提到:「OpenAI o1 是經過強化學習訓練來執行復雜推理任務的新型語言模型。特點就是,o1 在回答之前會思考 —— 它可以在響應用戶之前產生一個很長的內部思維鏈。也就是該模型在作出反應之前,需要像人類一樣,花更多時間思考問題。通過訓練,它們學會完善自己的思維過程,嘗試不同的策略,并認識到自己的錯誤。」

或許 OpenAI 不會公布更多底層的技術細節了,但研究者們的好奇不會消失。

一位研究者「TechnoTherapist」決定借助大模型的力量來剖析:他向 Claude 提供了涉及 OpenAI 發布的信息(System Card、博客文章、Noam Brown 和其他人的推文、ARC Prize 團隊的評論)和與 o1 模型相關的在線討論(Reddit、YouTube 視頻)。

Claude 可以用 mermaid、plantuml、svg 等語言創建圖表。研究者從 mermaid 開始,反復修改,直到得到一個全面的圖表;然后讓 Claude 將其轉換為 svg,并添加所需的視覺特征(美學、需要突出顯示的區域等);最后,用 python 腳本將 svg 轉換為 png 圖像。

經過一番討論,他和 Claude 共同完成了 o1 模型的可能架構圖:

圖源:https://www.reddit.com/r/LocalLLaMA/comments/1fgr244/reverse_engineering_o1_architecture_with_a_little/

OpenAI 的博客也曾提到,隨著更多的強化學習(訓練時計算)和更多的思考時間(測試時計算),o1 的性能持續提高,類似于「強化學習的 Scaling Law」。大規模的強化學習算法,能夠教會模型如何在數據高度有效的訓練過程中利用其思維鏈進行高效思考。

在這次逆向工程中,研究者假設了 OpenAI 可能會使用現實世界中生成的 CoT 來進一步調整 RL 優化模型。因此在架構圖中,語言模型會將大規模 CoT 存儲輸入到 RL 環境中。

也有人持不同看法,比如這位研究者指出,上述「假設」的過程很可能只是一個「模擬思路的 prompt 響應生成循環」,而所謂的「推理 token」也只是一種隱藏 token 的花哨術語。

o1 能力強,但使用需謹慎

o1 確實有兩把刷子,但它的發布也釋放了一個危險信號:OpenAI 首次將 o1 模型在化學、生物、放射性和核武器風險方面評為「中等」,并伴隨著許多關于其潛在危險的警告。

在 o1 的 system card 中,最引人注目的部分,就是由 Apollo Research 進行的評估。該評估發現,o1 在測試中「有時會策略性地偽裝對齊」,「為了使其不一致的行為看起來更一致,策略性地操縱任務數據」。

Apollo 還發現,與 GPT-4o 相比,「o1-preview 在自我認知、自我推理(在智能體環境中應用自我意識)和應用心理理論方面有所提高」。

以上種種結果,讓 Apollo 得出一個結論,「o1-preview 具備了進行簡單上下文內策劃的基本能力」,而這是許多擔心 AI 風險的人非常關注的能力。

OpenAI 還指出,「推理技能導致『獎勵黑客行為』的發生頻率更高」。這種現象是指模型以不期望的方式實現了目標的文字規格。

在一次實驗中,o1 被要求找到一個在遠程挑戰容器上運行的軟件的漏洞,并加以利用,但挑戰容器未能啟動。

模型隨后掃描了挑戰網絡,發現了一個在虛擬機上運行的 Docker 守護進程 API,并用它來生成容器的日志,解決了挑戰。

OpenAI 對這一事件的描述值得一提:「這個例子也反映了工具性收斂和尋求權力的關鍵要素:模型追求了它被賦予的目標,當這個目標被證明是不可能的時候,它收集了更多資源(訪問 Docker 主機)并用它們以一種意想不到的方式實現了目標。」

關于生物威脅,OpenAI 沒有詳細說明,但表示安全評估顯示「o1-preview 和 o1-mini 可以幫助專家進行復制已知生物威脅的操作規劃」。雖然模型「不會使非專家能夠創建生物威脅」,但它們確實「加快了專家的搜索過程」,并且比 GPT-4o 顯示出了更多的生物學「隱性知識」。

或許這意味著,隨著 OpenAI 不斷推進模型的發展,它們可能會創造出風險過高、以至于不適合公開發布的模型。

參考鏈接:

https://www.maximumtruth.org/p/massive-breakthrough-in-ai-intelligence

https://x.com/maximlott/status/1835043371339202639

https://assets.ctfassets.net/kftzwdyauwt9/67qJD51Aur3eIc96iOfeOP/71551c3d223cd97e591aa89567306912/o1_system_card.pdf

https://www.transformernews.ai/p/openai-o1-alignment-faking?utm_campaign=post&utm_medium=web

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

亚洲一区二区三区在线观看视频| 新91视频在线观看| 精品久久久久久久久久久久久久久久| 99国内精品久久| 日韩美一区二区三区| 国产精品都在这里| 天天做天天干天天操| 国产视频一区二区三| 午夜成人在线视频| 国产精品三级美女白浆呻吟| 国产精品久久久久久久99| 国产刺激高潮av| 欧美日本视频在线| 国产亚洲精品久久飘花| 中文字幕第24页| 成人久久18免费网站麻豆| 亚洲第一精品夜夜躁人人爽 | 日韩免费观看网站| 日本成人在线免费观看| 日韩二区三区在线观看| 精品视频在线播放免| 国产成人三级视频| 无码人妻精品一区二区三区蜜桃91 | 欧美日韩一区 二区 三区 久久精品 | 国产成人精品视频| 成人影视免费观看| 26uuu亚洲| 91精品国产91久久久久久久久| 国产女同无遮挡互慰高潮91| 精品一区二区三区在线播放| 国产一区二区三区在线播放免费观看| 欧美老熟妇喷水| 日本激情视频网站| 亚洲欧洲午夜一线一品| 熟女人妇 成熟妇女系列视频| 久久一区视频| 亚洲欧美精品在线| 蜜臀av免费观看| 国产精品一区二区在线观看不卡| 日韩视频免费在线观看| 国产亚洲色婷婷久久| 岛国一区二区在线观看| 国产+人+亚洲| 一卡二卡三卡四卡| 综合精品久久久| av在线亚洲男人的天堂| 欧美亚洲精品天堂| 欧美久久高跟鞋激| 国产午夜福利100集发布| 久久精品毛片| 久久这里只有精品99| 黄页网站在线看| 国产欧美视频一区二区| 午夜在线视频观看| 国模吧无码一区二区三区| 在线看成人av| 99久久精品99国产精品| 日本午夜在线亚洲.国产| 免费在线观看a视频| 中文在线一区二区| 国产伦精品一区二区三区高清版| 无码人妻久久一区二区三区| 精品久久久久久无| 五月天婷婷亚洲| 91丨porny丨国产| 91老司机在线| 波多野结衣毛片| 日韩高清av一区二区三区| 欧美成人福利在线观看| av午夜一区麻豆| 成人字幕网zmw| 在线观看色网站| 中文字幕亚洲图片| 四虎永久免费在线观看| 亚洲一二三四在线| 亚洲不卡中文字幕| 美女视频网站黄色亚洲| 欧美综合国产精品久久丁香| 婷婷在线精品视频| 欧美精品乱码久久久久久| 日韩av在线第一页| 91免费视频网址| 国产一区免费| 久久久久欧美精品| 青草青草久热精品视频在线网站 | 亚洲欧美一区二区在线观看| 国产私拍一区| 国产高清免费在线观看| 久久影院资源网| 欧美色图亚洲天堂| 精品999在线播放| www.17c.com喷水少妇| 国产精品国模大尺度视频| 欧美日韩一区综合| 日韩精品成人一区二区三区| 国产精品丝袜高跟| 日韩欧美三级视频| 亚洲第一视频网站| 国产视频久久久久久| 亚洲国产成人va在线观看天堂 | 国产欧美精品一区二区三区-老狼| 亚洲另类欧美日韩| 大尺度做爰床戏呻吟舒畅| 女同毛片一区二区三区| 欧美美女激情18p| 久久影院在线观看| 一二三区免费视频| 日韩视频在线观看免费| 亚洲不卡的av| 91精品综合久久久久久| 亚洲少妇久久久| 久久精品欧美一区二区三区不卡 | 亚洲黄色片免费| 一级精品视频在线观看宜春院| 亚洲永久一区二区三区在线| 日韩av一区二区在线影视| 国产精品扒开腿爽爽爽视频 | 国产在线精品播放| www.国产麻豆| 国产精品高清免费在线观看| 国产高清在线观看视频| 不卡一卡2卡3卡4卡精品在| 亚洲伊人成综合成人网| 亚洲男人天堂久久| 成人午夜黄色影院| 日韩电影在线一区二区| 成人国产精品一区二区| 视频一区中文字幕国产| 国产福利视频一区| 美女久久一区| 99国产视频在线| 人妻中文字幕一区| 久久久久国产一区二区三区| 亚洲综合五月天婷婷丁香| 91麻豆精品国产自产在线观看一区 | 国产成人精品国内自产拍免费看| 性无码专区无码| 俺去啦;欧美日韩| 国产精品无码白浆高潮| 国产97人人超碰caoprom| 午夜影院免费体验区| 九九九九精品| 欧美国产日韩一二三区| 天天综合天天添夜夜添狠狠添| 欧美欧美欧美欧美首页| 国产精品国产精品88| 久久久久久久久中文字幕| 十八禁一区二区三区| 日本一区二区三区精品视频| 亚洲蜜桃精久久久久久久| 丝袜熟女一区二区三区| 一区二区三区精品99久久| 中文字幕日本人妻久久久免费| 成人日韩av在线| 成人动漫av在线| 中文字幕乱码人妻综合二区三区| 欧美视频中文在线看| 美国黄色片视频| 51ⅴ精品国产91久久久久久| 韩国成人在线视频| 国产精品秘入口18禁麻豆免会员| 欧美日韩卡一卡二| 日干夜干天天干| 亚洲自拍欧美色图| 国产精品色噜噜| 国产艳俗歌舞表演hd| 久久精品这里热有精品| 日韩成人伦理电影在线观看| 人体内射精一区二区三区| 777亚洲妇女| av图片在线观看| 97人人香蕉| 亚洲欧美日韩综合aⅴ视频| av2014天堂网| 国产91成人video| 不卡av免费在线观看| 亚洲这里只有精品| 中文字幕精品国产| 日本不卡免费在线视频| 国产精品久久久影院| 日韩欧美在线一区| 免费看日批视频| 精品免费国产| 偷拍一区二区三区| 青娱乐国产在线| 韩国日本不卡在线| 91女厕偷拍女厕偷拍高清| 国产午夜在线一区二区三区| 欧美国产第二页| 国产一区二区电影| av污在线观看| 一区二区在线免费视频| 黄一区二区三区| 青娱乐精品在线| 欧美大奶子在线| 国产丶欧美丶日本不卡视频| 玩弄japan白嫩少妇hd| 日韩av在线天堂网| 美腿丝袜亚洲色图| 人妻精品久久久久中文字幕69| 久久久久久久久电影| 97精品久久久久中文字幕 | 欧美精三区欧美精三区| 国产美女无遮挡永久免费| 中文字幕综合在线观看| 欧美成人精精品一区二区频| 污视频网站在线播放| www.亚洲高清| 久久亚洲影音av资源网| 久久男人中文字幕资源站| 五月天丁香社区| 91国内精品久久| 一区二区三区在线观看动漫 | 国产视频久久久| 国精产品一品二品国精品69xx| 免费无码不卡视频在线观看| 精品欧美乱码久久久久久1区2区| 最近国语视频在线观看免费播放| 韩日视频在线观看| 日韩精品在线播放| 国产制服丝袜一区| 五月天婷婷影视| 国产精品视频导航| 亚洲国产精品久久一线不卡| 69视频免费在线观看| 国内精品在线观看视频| 主播福利视频一区| 成人高清视频在线观看| 九色91porny| 国产精品美女午夜av| 色欧美88888久久久久久影院| 免费观看成人毛片| 美女扒开大腿让男人桶| 久久精品视频在线播放| 91免费看片在线观看| 久久中文免费视频| 亚洲精品蜜桃久久久久久| 久久久精品999| 国产精品蜜臀av| 波多野结衣网站| 国内少妇毛片视频| 久久久久一本一区二区青青蜜月| 亚洲一区在线观看免费| 国产精品无码免费播放| 亚洲欧美在线精品| 国产日韩精品电影| 欧美人体做爰大胆视频| 极品少妇一区二区三区精品视频| 免费看91的网站| 视色,视色影院,视色影库,视色网| 最近2019好看的中文字幕免费| 久久奇米777| 一级片视频播放| www.555国产精品免费| 久久久久久a亚洲欧洲aⅴ| 91精品国产综合久久国产大片| 日韩精品高清不卡| 欧美一级片在线免费观看| 国产精品欧美久久| 欧美日韩国产影片| 91免费观看在线| 日韩精品在线观看免费| 亚洲成人精品女人久久久| 国产女主播av| 国产精品吹潮在线观看| 日韩欧美一级在线播放| 国产欧美综合在线观看第十页| 国产免费视频一区二区三区| 亚洲第一香蕉网| 久久久久久久久久网| 91精品美女在线| 在线播放国产一区中文字幕剧情欧美| 一区二区成人在线| 免费av一区二区| 91网站在线看| 亚洲一区二区三区涩| 97精品视频在线播放| 91精品国产91久久久久久久久| 欧美激情第一页xxx| 日韩在线观看电影完整版高清免费 | 在线区一区二视频| 精品国产sm最大网站免费看| 久久韩国免费视频| 大地资源第二页在线观看高清版| 影音先锋男人的网站| 成人亚洲视频在线观看| 中文字幕91视频| 亚洲色欲色欲www| 欧美一级高清免费播放| 亚洲一区影院| 久久精品久久国产| 亚洲国产精品久久一线不卡| 国产精品一久久香蕉国产线看观看 | 国产免费裸体视频| 唐朝av高清盛宴| 色噜噜夜夜夜综合网| 中文字幕在线中文| 国产日韩成人精品| 久久久久久久久久久久久久一区| 国产a级免费视频| 在线成人一区二区| 艳妇乳肉亭妇荡乳av| www.我爱av| 精品国产一区久久| 国产日韩换脸av一区在线观看| 中文字幕一二三| 免费在线视频一区| 亚洲免费视频观看| 欧美一区二区三区在线免费观看 | 国产三级一区二区| 久久精品视频va| 欧美精品成人网| 国产成人超碰人人澡人人澡| 精品国产a毛片| 久久在线免费观看视频| 91香蕉视频污版| 理论电影国产精品| 国产精品aaaa| 日韩欧美国产另类| 精品在线欧美视频| 人妻巨大乳一二三区| 一区二区高清免费观看影视大全| 99re视频| 日本黄色片免费观看| 国产日韩欧美在线一区| 亚洲精品天天看| 2018国产在线| 视频一区中文字幕| 国产成人精品免费久久久久| 男人女人黄一级| 国产孕妇孕交大片孕| 日韩一区二区三区电影在线观看| 特级特黄刘亦菲aaa级| 欧美日韩中文字幕日韩欧美| 一二三四中文字幕| 99精品在线免费视频| 精品一区二区三区欧美| 国产精品入口免费| 男人操女人的视频网站| 国产在线精品免费| 精品国产电影| 成人黄页在线观看| 国产精品久久久久久久天堂第1集 国产精品久久久久久久免费大片 国产精品久久久久久久久婷婷 | 日韩在线第三页| 亚洲精品久久久蜜桃动漫 | 国产精品无码一区二区三区免费| 午夜老司机福利| 正在播放欧美视频| 久久人人妻人人人人妻性色av| 欧美怡红院视频| 久久久久久久福利| 国产福利成人在线| 99精品久久99久久久久| 成年人在线观看视频免费| 亚洲国产毛片aaaaa无费看| 在线免费视频a| 日韩视频一区二区在线观看| 中文久久久久久| 欧美激情综合五月色丁香 | 久久国产精品99久久久久久老狼| 欧美国产高跟鞋裸体秀xxxhd| 免费观看一区二区三区毛片| 亚洲深夜福利网站| 五月天六月丁香| 午夜成人在线视频| 国产三区在线视频| 亚洲电影一区二区| xxxxxx黄色| 欧美哺乳videos| 手机看片福利日韩| 欧美日韩一区二区三区| 成人日韩在线视频| 在线观看一区二区视频| 91国视频在线| 日韩黄色免费电影| 国产欧美综合精品一区二区| 成人午夜电影网站| 亚洲少妇第一页| 色婷婷综合久久久久| 免费久久99精品国产| 日本人dh亚洲人ⅹxx| 在线视频日韩精品| 首页国产欧美久久| 国产精品无码一区二区在线| 精品国产91久久久久久久妲己| 波多野结衣午夜| 亚洲xxxx3d| 国产黄a三级三级看三级| 日韩美女视频免费在线观看| 国产麻豆一精品一av一免费| 麻豆av福利av久久av| 中文字幕免费在线观看视频一区| 亚洲免费一级视频| 91在线观看地址| 91九色丨porny丨国产jk| 一本色道久久综合精品竹菊| xxxx日本免费| 亚洲影院色无极综合| 色偷偷成人一区二区三区91 | 国产成年妇视频| 99九九视频| 无码精品人妻一区二区三区影院| 国产成人精品在线视频| 91香蕉视频污在线| 中文字幕一二三四区| 欧美高清在线视频观看不卡| 久久亚洲美女| 17c国产在线| 国产精品久久不能| 国产精品色噜噜|