OpenAI“草莓”來了，AI推理能力大升級，奧賽IMO正確率83%

IP屬地中國·北京 編輯：顧青青華爾街見聞 時間：2024-09-13 20:26:21

OpenAI旗下首款具有推理能力的AI大語言模型加速襲來。
兩天前，尚有消息稱代號為“草莓”的推理功能模型預計在兩周內發布，當地時間9月12日周四，這款模型已經以“OpenAI o1”（英文字母O+阿拉伯數字1）的正式名稱發布了。
不過，作為o1系列模型的首批版本，OpenAI僅推出了o1-preview預覽版和o1-mini迷你版，而且是分階段向付費用戶、免費用戶和開發者推出，且開發者的使用價格頗為昂貴。
OpenAI在社交媒體官宣發布o1模型
o1模型使用成本至少是GPT-4o的3倍，初始發送信息數有限，采用全新方法訓練
據介紹，o1新模型通過背后嶄新的訓練方式，變得可以回答更復雜的編程、數學與科學難題，在給出答案前會先“思考”，而且速度比人類更快。更小、更便宜的迷你版聚焦在編程用例。
ChatGPT Plus和Team付費用戶即刻起便能訪問這兩種模型，從用戶界面AI模型選擇器的下拉菜單中手動選擇。ChatGPT Enterprise和Edu用戶下周能使用這兩種模式，未來某個未知時刻還將向所有免費用戶提供o1-mini的訪問權限。OpenAI希望以后能根據提示語自動選擇正確的模型。
目前僅能在下拉菜單中手動選擇模型，沒有取代GPT系列模型
不過，開發人員訪問o1非常昂貴，在API（應用程序編程接口）中，o1-preview每100萬個輸入token收費15美元，是GPT-4o成本的三倍，每100萬個輸出token收費60美元，是GPT-4o成本的四倍。100萬個token即模型解析文字塊的規模大小，相當于大約75萬個單詞。
OpenAI的研究負責人Jerry Tworek對媒體稱，o1背后的訓練方式與之前的模型有著根本不同。
首先，o1“使用了一種全新的優化算法和專門為其量身定制的新訓練數據集進行訓練”，這個數據集中包含“推理數據”和專門為其量身定制的科學文獻。
其次，之前的GPT模型訓練方法是模仿數據集的規律/范式（pattern），而o1采用“強化學習”的方式，通過獎勵和懲罰來教導模型自行解決問題，再通過“思路鏈”（chain of thoughts）來處理用戶查詢的問題，給出思路鏈的總結摘要版，類似于人類一步步來處理問題的方式。
右圖可以點開思路鏈看o1模型如何“思考”
對于一個復雜數學問題的思路鏈展示圖
OpenAI認為，這種全新的訓練方法會讓o1模型更加準確，會減少瞎編回答的“幻覺”問題，但也無法完全杜絕出現“幻覺”。新模型與GPT-4o的主要區別在于能夠更好地解決編程和數學等復雜問題，同時還能完善其推理過程、嘗試不同策略，并識別和修正自身答案中的錯誤。
優勢：對復雜的推理任務是重大進步，思考越久質量越高，安全性提升，展現思考步驟
在優勢方面，OpenAI稱o1模型對于復雜的推理任務來說是個重大進步，代表了人工智能能力的新水平，而且模型“思考”的時間越長，在推理任務上的表現就越好，因為o1可以花更多時間來考慮一個復雜問題的所有部分，從而有效地進行事實核查。
具體來說，o1模型的推理能力大幅提升，在物理、化學和生物等學科的Challenging基準測試中表現與博士生（即專家型人才）相當。而且其數學和編程能力爆表，在一項國際奧數競賽（IMO）的資格考試中正確率高達83%，GPT-4o的正確率只有13%，在Codeforces在線編程競賽中的成績也高達89百分位，即前頭只有11%的人類選手比o1模型出色。
同時，o1模型的安全性得以提升，比之前模型更能遵守安全準則，并且更能抵抗產生有害內容。在用戶試圖繞過安全規則的“越獄測試”中，在最嚴格的標準下GPT-4o在百分之中僅得22分，o1預覽版的分數卻高達84。公司稱其“沒有促進超過現有資源已經可能實現的評估風險。”
公司稱，適用人群包括“正在解決科學、編程、數學和類似領域復雜問題的人士”，這些增強的推理能力可能特別有用。o1模型擅長準確生成和調試復雜代碼，迷你版是款速度更快、比預覽版便宜80%的推理模型，在編程方面尤其高效，適用于需要推理但不需要廣泛世界知識的應用程序：

“例如，醫療研究人員可以使用o1來注釋細胞測序數據，物理學家可以使用o1來生成量子光學所需的復雜數學公式，各領域的開發人員可以使用o1來構建和執行多步驟工作流程。”
測試過該模型的湯森路透副總裁Pablo Arredondo還發現，在分析法律摘要和解決LSAT（法學院入學考試）的邏輯題等方面，o1模型比OpenAI之前的模型更好：“我們發現它可以處理更實質性、更多方面的分析，我們的自動化測試還表明，它在處理一系列簡單任務時都有所進步。”
此外，如果點擊“展示思路鏈”便可發現，o1模型在“思考”時似乎格外“擬人化”，加入了“嗯……”、“我很好奇”、“我正在思考”、“好的，讓我看看”等口語化的表達來推進思考步驟。
公司高管稱，OpenAI 并不認為人工智能模型思維等同于人類思維，這種更具人性化的表達旨在展示模型如何花費了更多時間處理問題并全面、深入地解決問題。
可看到思路鏈中充斥著一些人類口語化的表達
缺點：無法瀏覽實時網頁、無法上傳文件和圖片、缺乏廣泛世界知識、或更易產生幻覺
但作為o1模型的最初始版本，今日發布的o1-預覽版也有明顯缺點。例如，只是一款“純文字版”，暫時無法瀏覽網頁信息以及上傳文件和圖片。
也就是說不具備ChatGPT的許多使用功能，在許多常見用例中不如GPT-4o那么強大，而且還有用量限制，o1預覽版每周上限為30條消息，迷你版每周上限為50條。
其他被提及的局限性包括：o1模型在很多領域的能力不如GPT-4o，在關于世界的事實知識方面表現不佳；有的用例下推理能力較慢，可能需要更長的時間來回答問題；目前o1只是一個純文本模型，缺乏針對特定文檔進行推理，或者從網絡收集實時信息的能力。
此外，讓AI模型玩井字棋（Tic-Tac-Toe）一直被認為是個業界難題，擁有推理能力的o1新模型也還是會在這個游戲中出錯，即無法完全攻克技術難關。
OpenAI還在一篇技術論文中承認，其收到了一些“軼事反饋”，稱o1預覽版和迷你版比GPT-4o及其迷你版更容易產生“幻覺”，也就是AI仍在很自信地編造答案，而且o1很少會承認它不知道問題的答案。
知名科技媒體Techcrunch指出，OpenAI在o1模型相關的博文中點明，其決定不向用戶展示這一新模型的原始“思維鏈”，而是選擇在答案中給出思維鏈的總結摘要，目的是為了維持“競爭優勢”，為了彌補可能的缺點，“我們努力教導模型在答案中重現思路鏈中的任何有用想法。”
OpenAI也承認在訓練AI模型推理能力方面的競爭壓力很大：

“OpenAI可能率先推出了o1。但假設競爭對手很快也會效仿并推出類似的模型，那么公司真正的考驗將是讓o1得到廣泛應用。

OpenAI未來將不斷推出o1模型的更新版本，目標是對推理時間長達數小時、數天甚至數周的o1模型進行實驗，以進一步提高其推理能力。
在o1正式發布前，曾有媒體稱其最早可能在本周向有限數量的用戶開放。而且OpenAI并不是唯一致力于開發具有推理能力AI模型的公司，Anthropic和谷歌也都宣稱其先進的人工智能模型具有“推理”能力：

“o1模型的發布，正值OpenAI尋求（以1500億美元的超高估值）籌集數十億美元資金，并且在開發越來越復雜的人工智能系統方面遭遇更激烈的競爭之際。”

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

從垂直整合到開放共享，比亞迪書寫中國汽車升級轉型范本

AMD銳龍9 9955HX對比英特爾酷睿Ultra 9 275HX，五款游戲輪番測

云宇星空大模型正式發布，上海市規劃資源局與商湯大裝置聯合打造

30年果粉兌換禮品卡后被封號：用了25年的Apple ID被永久停用

緊急“剎車”：寶馬5系旅行車中期改款被曝回歸傳統雙腎格柵

從深圳出發，向全球進發：元化智能一年12證書寫手術機器人“中國速度”

全站最新

從垂直整合到開放共享，比亞迪書寫中國汽車升級轉型范本

AMD銳龍9 9955HX對比英特爾酷睿Ultra 9 275HX，五款游戲輪番測

云宇星空大模型正式發布，上海市規劃資源局與商湯大裝置聯合打造

30年果粉兌換禮品卡后被封號：用了25年的Apple ID被永久停用

熱門推薦

喜茶“瘦身”：不拼門店數，改拼什么？

不做線上，不做廣告，這家超市如何成為美國“坪效之王”？

波司登代工大學羽絨服，找回漲價的體面

安克創新的AB面：創始人分紅過億，存貨卻壓垮現金流

雷軍、何小鵬、張一鳴和賈躍亭都來跨界AI機器人，宇樹科技能否守得住護城河？

微軟聯手 Kimi 打造 Office 自動化 Agent，AI 云巨頭開啟本土化“自我修正”

YouTube 封禁兩家發布虛假電影預告的 AI 頻道

亞馬遜組建全新AI組織，AWS元老Peter DeSantis掛帥，全面整合大模型、芯片與量子計算

LeCun再創業！新公司估值247億，CEO卻不是他！

被無數人看衰的Manus，8個月狂飆1億美元ARR！創全球最快紀錄，AI代理時代徹底引爆

國內首個國標 VLA 大模型開源!北京人形 XR-1讓機器人真正“會干活”

從垂直整合到開放共享，比亞迪書寫中國汽車升級轉型范本

AMD銳龍9 9955HX對比英特爾酷睿Ultra 9 275HX，五款游戲輪番測

華曙高科：中科院等離子所引入大尺寸銅合金打印設備為國家聚變能源裝備研發提供技術支撐

云宇星空大模型正式發布，上海市規劃資源局與商湯大裝置聯合打造