超越數(shù)理化博士！OpenAI發(fā)布o1模型，打破AI“黑箱”

IP屬地中國·北京 編輯：蘇婉清硅兔賽跑 時間：2024-09-14 00:40:15

作者｜Xuushan，編輯｜蔓蔓周
“
推翻GPT-4，OpenAI如何教會AI自我思考？
”
今天，OpenAI藏了許久的“Strawberry”模型終于發(fā)布了！
連OpenAI的CEO Sam Altman都在社交平臺X上提到自己等不及了，并直言：“這是 o1，我們迄今為止最強大的模型系列。”
OpenAI o1是一個全新的系列模型，和GPT系列模型相比有兩大不同：
第一，該系列模型是在思考之后回答用戶問題，輸出高質(zhì)量的內(nèi)容，而非迅速回應(yīng)無效回答。
第二，o1系列更擅長推理，推理能力大幅提升，尤其擅長準確生成和調(diào)試復雜代碼。
目前OpenAI并未全面對用戶開放o1系列模型，僅開放了o1-preview和o1-mini版本供用戶使用。同時，OpenAI還發(fā)布了o1-mini模型，該模型推理速度更快，且成本更低，o1-mini比o1-preview便宜80%，更擅長編碼等推理性內(nèi)容，但不擅長語言、通用知識類內(nèi)容。
OpenAI最后提到發(fā)布o1系列并不意味放棄GPT系列模型，他們將繼續(xù)開發(fā)和發(fā)布GPT系列模型。
讓人意外的是，OpenAI此次還披露了o1系列研發(fā)的參與者。該項目由Jakub Pachocki、Jerry Tworek（overall）、Liam Fedus、Lukasz Kaiser、Mark Chen、Szymon Sidor、Wojciech Zaremba領(lǐng)導，核心貢獻者有51位。
o1模型發(fā)布后，一些曾參與到o1模型內(nèi)測的用戶或者剛剛體驗了o1模型的用戶給出了更多的看法。
以O(shè)penAI的研發(fā)人員為代表的工程師多數(shù)都在夸贊AI思考鏈的強大。但同時，硅谷里也有人發(fā)出了不同的聲音，認為o1很多測試并沒有得到科學界認證。比如說，紐約大學教授、美國知名AI學者Gary Marcus認為o1法學考試能力有夸大嫌疑，其真實能力有待檢驗。
01
讓大模型學會思考？
o1將思考過程透明化
我們看到o1系列模型與GPT系列模型明顯不同之處，在于o1有“思考鏈”了。
這里面有兩個值得注意的地方。
一是，OpenAI嘗試讓利用大規(guī)模強化學習算法“教會”模型有效思考，像人類一樣。
OpenAI主要通過強化學習，讓o1學會思考其思路鏈并改進其思考路線。o1逐漸學會識別不同的思考鏈模式，并且能夠糾正思考路線錯誤。
同時，它還學會將棘手步驟分解為更簡單步驟。
此外，它還能學會在一個思考模式不起作用時，嘗試不同思考鏈解決。“這個過程極大地提高了模型的推理能力。”O(jiān)penAI說道。
二是，OpenAI發(fā)現(xiàn)隨著強化學習的增加（訓練時間計算）和思考時間的增加（測試時間計算），o1的性能會持續(xù)提高。
這時候，新的問題又擺在了OpenAI面前——AI的思考過程到底要不要顯示出來？
OpenAI認為如果展示AI的思考鏈能夠幫助人類讀懂AI的思考，并且避免AI“背叛”人類，更好地監(jiān)視AI的安全性。
同時，OpenAI也提到希望模型能夠自由地以未改變的形式表達其思想，而非受到“政策合規(guī)性以及用戶偏好”的訓練。
從硅兔君目前測試的o1-mini模型來看，OpenAI最終還是為o1模型選擇了透明化其思考過程。
這一下，不少網(wǎng)友都跑去提出許多奇奇怪怪的問題，就為了想看看AI在想什么。
目前，o1模型還在早期測試階段，其o1-preview模型也僅支持文字輸入，輸入方式相比GPT-4更單一。不過，OpenAI提到未來希望添加瀏覽、文件和圖片上傳等功能。
現(xiàn)在，ChatGPT Plus和Team用戶將能夠在ChatGPT中的模型選擇器中直接選擇訪問o1模型。每周能夠給o1-preview發(fā)生30條消息，給o1-mini發(fā)送50條消息。
符合API等級5的開發(fā)人員現(xiàn)在可以開始使用API中的兩種模型進行產(chǎn)品原型設(shè)計，速率限制為20RPM。但目前o1模型的API不包括函數(shù)調(diào)用、流式傳輸、對系統(tǒng)消息的支持和其他功能。
ChatGPT Enterprise和Edu用戶將從下周開始使用這兩種模型。
02
OpenAI o1模型：
數(shù)理化強者，推理能力翻倍提升
o1在幾個ML基準測試中，都表現(xiàn)出當下最先進的水平。尤其是在啟用視覺感知功能后，o1在MMMU上的得分為78.2%，成為第一個與人類專家相媲美的模型。
OpenAI測試結(jié)果顯示，OpenAI o1在競爭性編程問題（Codeforces）中排名第 89 位，在美國數(shù)學奧林匹克 (AIME) 預選賽中躋身美國前500名學生之列，并在物理、生物和化學問題 (GPQA) 基準測試中超越人類博士級水平。
在絕大多數(shù)的推理能力較強的任務(wù)中，o1的表現(xiàn)明顯優(yōu)于GPT-4o。
o1在廣泛基準測試中都比GPT-4o有所改進，該項測試共54至57個測試方向，圖中顯示了7個子類別，可以看到o1全方面強于GPT-4o 。
同時，OpenAI還評估了AIME的數(shù)學表現(xiàn)，AIME 是一項旨在挑戰(zhàn)美國最聰明的高中數(shù)學學生的考試。
在2024年的AIME考試中，GPT-4o平均僅解決了12% (1.8/15) 的問題。o1拿下了13.9 的分數(shù)使其躋身全國前500名學生之列，并超過了美國數(shù)學奧林匹克的分數(shù)線。
OpenAI還在GPQA測試上對o1進行了評估。這是一個很難的考試，主要測試化學、物理和生物學方面的專業(yè)知識。
為了將模型與人類進行比較，OpenAI招募了具有博士學位的專家來回答 GPQA測試的問題。OpenAI發(fā)現(xiàn)o1的表現(xiàn)超過了那些人類專家，成為第一個在這個基準上做到這一點的模型。
這些結(jié)果并不意味著o1在各方面都比博士更有能力——只是意味著該模型在解決一些博士需要解決的問題方面更熟練。
OpenAI還模擬了Codeforces主辦的競爭性編程競賽，以展示該模型的編碼技能。這個評估與競賽規(guī)則非常接近，允許提交10份作品。GPT-4o的Elo評級為(3 分)（808 分），位于人類競爭對手的第11個百分位。該模型遠遠超過了 GPT-4o 和 o1——它的 Elo評級為1807分，表現(xiàn)優(yōu)于93%的競爭對手。
除了考試和學術(shù)基準之外，OpenAI還選擇了一些用戶測試了對o1-preview和 GPT-4o的偏好。在這次評估中，人類訓練師看到了對o1-preview和GPT-4o 提示的匿名回答，并投票選出他們更喜歡的回答。
在數(shù)據(jù)分析、編碼和數(shù)學等推理能力較強的類別中，o1-preview的受歡迎程度遠遠高于GPT-4o。然而，o1-preview在某些自然語言任務(wù)上并不受歡迎，這表明它并不適合所有場景。
o1還顯著提升了AI推理的最新水平。OpenAI期望這些新的推理能力將提高模型與人類價值觀和原則相結(jié)合的能力。
OpenAI相信o1及其后續(xù)產(chǎn)品將在科學、編碼、數(shù)學和相關(guān)領(lǐng)域解鎖更多的AI新應(yīng)用。
03
OpenAI o1-mini：
小巧、便宜、高效，但不擅長語言
OpenAI o1-mini是OpenAI推出一款經(jīng)濟高效的推理模型。該模型主要為一些需要推理而無需通用世界知識的應(yīng)用程序服務(wù)。簡單來說，OpenAI o1-mini模型小巧、便宜、高效，但是對通用知識了解不多。
o1-mini在預訓練期間針對STEM推理進行了優(yōu)化。在使用與o1相同的高計算強化學習 (RL) 管道進行訓練后，o1-mini在許多有用的推理任務(wù)上實現(xiàn)了相當不錯的性能，同時成本效率顯著提高。
比如說，在AI和推理基準測試中，o1-mini的表現(xiàn)優(yōu)于o1-preview 和o1。
在高中AIME數(shù)學競賽中，o1-mini（70.0%）與o1（74.4%）相當，同時價格便宜得多，且成績優(yōu)于o1-preview（44.6%）。o1-mini的得分（約 11/15 個問題）大約位列美國高中生前 500 名。
在Codeforces競賽網(wǎng)站上，o1-mini的Elo得分為1650，與o1（1673）不相上下，且高于o1-preview（1258）。該模型的Elo得分處于Codeforces平臺上競爭程序員中第86個百分位左右。o1-mini在 Humaneval編碼基準和高中級網(wǎng)絡(luò)安全奪旗挑戰(zhàn)賽 (CTF) 中也表現(xiàn)出色。
響應(yīng)速度方面，OpenAI比較了GPT-4o、o1-mini和o1-preview對一個單詞推理問題的回答。雖然GPT-4o回答不正確，但o1-mini和o1-preview都回答正確，而且o1-mini得出答案的速度快了大約3-5倍。
但語言明顯是o1-mini模型的弱項。
OpenAI讓人類評分員用同一開放性自然語言提問o1-mini和GPT-4o，測試問題以及測試方法與他們測試o1-preview與GPT-4o的方法相同。與o1-preview類似，在推理能力較強的領(lǐng)域，o1-mini比GPT-4o更受歡迎，但在以語言為中心的領(lǐng)域，o1-mini 并不比 GPT-4o更受歡迎。
整體看來， o1-mini專注于STEM推理能力，其關(guān)于日期、傳記和生活常識等非STEM主題的事實知識可與GPT-4o mini等小型 LLM 相媲美，但與GPT-4o仍有一定差距。
OpenAI介紹道：“我們將在未來版本中改進這些限制，并嘗試將模型擴展到 STEM之外的其他模態(tài)和專業(yè)。”

免責聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

大模型進展專欄第七期｜人工智能賦能科研范式重塑中國科學院 “磐石·科學基礎(chǔ)大模型”

博通發(fā)布Jericho4芯片：臺積電3nm工藝，可連接超100萬顆處理器

中山醫(yī)院獲批國家人工智能應(yīng)用中試基地建設(shè)項目，將打造醫(yī)療AI創(chuàng)新策源地

“人工智能場景化應(yīng)用創(chuàng)新與產(chǎn)業(yè)落地論壇”在哈爾濱舉行多領(lǐng)域創(chuàng)新成果集中亮相

以科技引領(lǐng)產(chǎn)業(yè)，繪人工智能發(fā)展新篇

向新而行｜人工智能的“頭雁”效應(yīng)

全站最新

從垂直整合到開放共享，比亞迪書寫中國汽車升級轉(zhuǎn)型范本

AMD銳龍9 9955HX對比英特爾酷睿Ultra 9 275HX，五款游戲輪番測

云宇星空大模型正式發(fā)布，上海市規(guī)劃資源局與商湯大裝置聯(lián)合打造

30年果粉兌換禮品卡后被封號：用了25年的Apple ID被永久停用

熱門推薦

中東人工智能金融科技公司Alaan獲4800萬美元融資，助力企業(yè)智能化管理！

大模型進展專欄第七期｜人工智能賦能科研范式重塑中國科學院 “磐石·科學基礎(chǔ)大模型”

博通發(fā)布Jericho4芯片：臺積電3nm工藝，可連接超100萬顆處理器

美國證券交易委員會成立人工智能專責小組助力創(chuàng)新與效率提升

伊利諾伊州立法禁止人工智能提供心理健康服務(wù)

中山醫(yī)院獲批國家人工智能應(yīng)用中試基地建設(shè)項目，將打造醫(yī)療AI創(chuàng)新策源地

“人工智能場景化應(yīng)用創(chuàng)新與產(chǎn)業(yè)落地論壇”在哈爾濱舉行多領(lǐng)域創(chuàng)新成果集中亮相

國家安全部：警惕人工智能“數(shù)據(jù)投毒”

“人工智能+”覆蓋12個領(lǐng)域張家口人工智能應(yīng)用場景加速落地

推動區(qū)域人工智能技術(shù)應(yīng)用中科聞歌人工智能研發(fā)中心啟用

以科技引領(lǐng)產(chǎn)業(yè)，繪人工智能發(fā)展新篇

向新而行｜人工智能的“頭雁”效應(yīng)

警惕人工智能數(shù)據(jù)污染：0.01%虛假文本可使有害輸出增11.2%

庫克：從未對蘋果的產(chǎn)品規(guī)劃感到如此興奮

獨家對話中國聯(lián)通趙亞暉，AI時代的“數(shù)據(jù)燃料”是如何煉成的？ | 浪潮對話