亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 人工智能 ? 正文

超越數(shù)理化博士!OpenAI發(fā)布o1模型,打破AI“黑箱”

IP屬地 中國·北京 編輯:蘇婉清 硅兔賽跑 時間:2024-09-14 00:40:15

作者|Xuushan,編輯|蔓蔓周

推翻GPT-4,OpenAI如何教會AI自我思考?

今天,OpenAI藏了許久的“Strawberry”模型終于發(fā)布了!

連OpenAI的CEO Sam Altman都在社交平臺X上提到自己等不及了,并直言:“這是 o1,我們迄今為止最強大的模型系列。”

OpenAI o1是一個全新的系列模型,和GPT系列模型相比有兩大不同:

第一,該系列模型是在思考之后回答用戶問題,輸出高質(zhì)量的內(nèi)容,而非迅速回應(yīng)無效回答。

第二,o1系列更擅長推理,推理能力大幅提升,尤其擅長準確生成和調(diào)試復雜代碼。

目前OpenAI并未全面對用戶開放o1系列模型,僅開放了o1-preview和o1-mini版本供用戶使用。同時,OpenAI還發(fā)布了o1-mini模型,該模型推理速度更快,且成本更低,o1-mini比o1-preview便宜80%,更擅長編碼等推理性內(nèi)容,但不擅長語言、通用知識類內(nèi)容。

OpenAI最后提到發(fā)布o1系列并不意味放棄GPT系列模型,他們將繼續(xù)開發(fā)和發(fā)布GPT系列模型。

讓人意外的是,OpenAI此次還披露了o1系列研發(fā)的參與者。該項目由Jakub Pachocki、Jerry Tworek(overall)、Liam Fedus、Lukasz Kaiser、Mark Chen、Szymon Sidor、Wojciech Zaremba領(lǐng)導,核心貢獻者有51位。

o1模型發(fā)布后,一些曾參與到o1模型內(nèi)測的用戶或者剛剛體驗了o1模型的用戶給出了更多的看法。

以O(shè)penAI的研發(fā)人員為代表的工程師多數(shù)都在夸贊AI思考鏈的強大。但同時,硅谷里也有人發(fā)出了不同的聲音,認為o1很多測試并沒有得到科學界認證。比如說,紐約大學教授、美國知名AI學者Gary Marcus認為o1法學考試能力有夸大嫌疑,其真實能力有待檢驗。

01

讓大模型學會思考?

o1將思考過程透明化

我們看到o1系列模型與GPT系列模型明顯不同之處,在于o1有“思考鏈”了。

這里面有兩個值得注意的地方。

一是,OpenAI嘗試讓利用大規(guī)模強化學習算法“教會”模型有效思考,像人類一樣。

OpenAI主要通過強化學習,讓o1學會思考其思路鏈并改進其思考路線。o1逐漸學會識別不同的思考鏈模式,并且能夠糾正思考路線錯誤。

同時,它還學會將棘手步驟分解為更簡單步驟。

此外,它還能學會在一個思考模式不起作用時,嘗試不同思考鏈解決。“這個過程極大地提高了模型的推理能力。”O(jiān)penAI說道。

二是,OpenAI發(fā)現(xiàn)隨著強化學習的增加(訓練時間計算)和思考時間的增加(測試時間計算),o1的性能會持續(xù)提高。

這時候,新的問題又擺在了OpenAI面前——AI的思考過程到底要不要顯示出來?

OpenAI認為如果展示AI的思考鏈能夠幫助人類讀懂AI的思考,并且避免AI“背叛”人類,更好地監(jiān)視AI的安全性。

同時,OpenAI也提到希望模型能夠自由地以未改變的形式表達其思想,而非受到“政策合規(guī)性以及用戶偏好”的訓練。

從硅兔君目前測試的o1-mini模型來看,OpenAI最終還是為o1模型選擇了透明化其思考過程。

這一下,不少網(wǎng)友都跑去提出許多奇奇怪怪的問題,就為了想看看AI在想什么。

目前,o1模型還在早期測試階段,其o1-preview模型也僅支持文字輸入,輸入方式相比GPT-4更單一。不過,OpenAI提到未來希望添加瀏覽、文件和圖片上傳等功能。

現(xiàn)在,ChatGPT Plus和Team用戶將能夠在ChatGPT中的模型選擇器中直接選擇訪問o1模型。每周能夠給o1-preview發(fā)生30條消息,給o1-mini發(fā)送50條消息。

符合API等級5的開發(fā)人員現(xiàn)在可以開始使用API中的兩種模型進行產(chǎn)品原型設(shè)計,速率限制為20RPM。但目前o1模型的API不包括函數(shù)調(diào)用、流式傳輸、對系統(tǒng)消息的支持和其他功能。

ChatGPT Enterprise和Edu用戶將從下周開始使用這兩種模型。

02

OpenAI o1模型:

數(shù)理化強者,推理能力翻倍提升

o1在幾個ML基準測試中,都表現(xiàn)出當下最先進的水平。尤其是在啟用視覺感知功能后,o1在MMMU上的得分為78.2%,成為第一個與人類專家相媲美的模型。

OpenAI測試結(jié)果顯示,OpenAI o1在競爭性編程問題(Codeforces)中排名第 89 位,在美國數(shù)學奧林匹克 (AIME) 預選賽中躋身美國前500名學生之列,并在物理、生物和化學問題 (GPQA) 基準測試中超越人類博士級水平。

在絕大多數(shù)的推理能力較強的任務(wù)中,o1的表現(xiàn)明顯優(yōu)于GPT-4o。

o1在廣泛基準測試中都比GPT-4o有所改進,該項測試共54至57個測試方向,圖中顯示了7個子類別,可以看到o1全方面強于GPT-4o 。

同時,OpenAI還評估了AIME的數(shù)學表現(xiàn),AIME 是一項旨在挑戰(zhàn)美國最聰明的高中數(shù)學學生的考試。

在2024年的AIME考試中,GPT-4o平均僅解決了12% (1.8/15) 的問題。o1拿下了13.9 的分數(shù)使其躋身全國前500名學生之列,并超過了美國數(shù)學奧林匹克的分數(shù)線。

OpenAI還在GPQA測試上對o1進行了評估。這是一個很難的考試,主要測試化學、物理和生物學方面的專業(yè)知識。

為了將模型與人類進行比較,OpenAI招募了具有博士學位的專家來回答 GPQA測試的問題。OpenAI發(fā)現(xiàn)o1的表現(xiàn)超過了那些人類專家,成為第一個在這個基準上做到這一點的模型。

這些結(jié)果并不意味著o1在各方面都比博士更有能力——只是意味著該模型在解決一些博士需要解決的問題方面更熟練。

OpenAI還模擬了Codeforces主辦的競爭性編程競賽,以展示該模型的編碼技能。這個評估與競賽規(guī)則非常接近,允許提交10份作品。GPT-4o的Elo評級為(3 分)(808 分),位于人類競爭對手的第11個百分位。該模型遠遠超過了 GPT-4o 和 o1——它的 Elo評級為1807分,表現(xiàn)優(yōu)于93%的競爭對手。

除了考試和學術(shù)基準之外,OpenAI還選擇了一些用戶測試了對o1-preview和 GPT-4o的偏好。在這次評估中,人類訓練師看到了對o1-preview和GPT-4o 提示的匿名回答,并投票選出他們更喜歡的回答。

在數(shù)據(jù)分析、編碼和數(shù)學等推理能力較強的類別中,o1-preview的受歡迎程度遠遠高于GPT-4o。然而,o1-preview在某些自然語言任務(wù)上并不受歡迎,這表明它并不適合所有場景。

o1還顯著提升了AI推理的最新水平。OpenAI期望這些新的推理能力將提高模型與人類價值觀和原則相結(jié)合的能力。

OpenAI相信o1及其后續(xù)產(chǎn)品將在科學、編碼、數(shù)學和相關(guān)領(lǐng)域解鎖更多的AI新應(yīng)用。

03

OpenAI o1-mini:

小巧、便宜、高效,但不擅長語言

OpenAI o1-mini是OpenAI推出一款經(jīng)濟高效的推理模型。該模型主要為一些需要推理而無需通用世界知識的應(yīng)用程序服務(wù)。簡單來說,OpenAI o1-mini模型小巧、便宜、高效,但是對通用知識了解不多。

o1-mini在預訓練期間針對STEM推理進行了優(yōu)化。在使用與o1相同的高計算強化學習 (RL) 管道進行訓練后,o1-mini在許多有用的推理任務(wù)上實現(xiàn)了相當不錯的性能,同時成本效率顯著提高。

比如說,在AI和推理基準測試中,o1-mini的表現(xiàn)優(yōu)于o1-preview 和o1。

在高中AIME數(shù)學競賽中,o1-mini(70.0%)與o1(74.4%)相當,同時價格便宜得多,且成績優(yōu)于o1-preview(44.6%)。o1-mini的得分(約 11/15 個問題)大約位列美國高中生前 500 名。

在Codeforces競賽網(wǎng)站上,o1-mini的Elo得分為1650,與o1(1673)不相上下,且高于o1-preview(1258)。該模型的Elo得分處于Codeforces平臺上競爭程序員中第86個百分位左右。o1-mini在 Humaneval編碼基準和高中級網(wǎng)絡(luò)安全奪旗挑戰(zhàn)賽 (CTF) 中也表現(xiàn)出色。

響應(yīng)速度方面,OpenAI比較了GPT-4o、o1-mini和o1-preview對一個單詞推理問題的回答。雖然GPT-4o回答不正確,但o1-mini和o1-preview都回答正確,而且o1-mini得出答案的速度快了大約3-5倍。

但語言明顯是o1-mini模型的弱項。

OpenAI讓人類評分員用同一開放性自然語言提問o1-mini和GPT-4o,測試問題以及測試方法與他們測試o1-preview與GPT-4o的方法相同。與o1-preview類似,在推理能力較強的領(lǐng)域,o1-mini比GPT-4o更受歡迎,但在以語言為中心的領(lǐng)域,o1-mini 并不比 GPT-4o更受歡迎。

整體看來, o1-mini專注于STEM推理能力,其關(guān)于日期、傳記和生活常識等非STEM主題的事實知識可與GPT-4o mini等小型 LLM 相媲美,但與GPT-4o仍有一定差距。

OpenAI介紹道:“我們將在未來版本中改進這些限制,并嘗試將模型擴展到 STEM之外的其他模態(tài)和專業(yè)。”

免責聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

全站最新
黄色一级a毛片| 亚洲三级久久久| 一级片在线观看视频| 白丝女仆被免费网站| 无码熟妇人妻av在线电影| 成人性生交大片免费观看嘿嘿视频 | 国产日韩综合av| 久久精品日韩欧美| 豆国产97在线 | 亚洲| 深夜视频在线观看| 国产精品国产三级国产专区51| 91免费在线视频| 免费不卡欧美自拍视频| 欧美日韩不卡一区| 日韩毛片视频在线看| 国产美女在线精品| 国产99视频在线| 国产精品1000| 免费看黄色aaaaaa 片| 国产精品wwwww| 亚洲欧洲免费无码| 成人亚洲激情网| 欧美黄色片免费观看| 亚洲黄色av女优在线观看 | 国产精品国产亚洲精品看不卡15| 欧美激情按摩在线| 国产视频亚洲精品| 欧美日韩免费不卡视频一区二区三区 | 免费的一级黄色片| 精品九九九九| 国产精品网红直播| 欧美另类交人妖| 日韩国产精品一区| 精品视频免费在线| 亚洲综合色视频| 2021久久国产精品不只是精品| 美女在线观看视频一区二区| 国产精品人妻一区二区三区| 日本黄色片视频| 超碰人人干人人| 亚洲精品一区二区18漫画| 精品国产一二三四区| 亚洲精品8mav| 精品国产乱码久久久久久丨区2区 精品国产乱码久久久久久蜜柚 | 久久激五月天综合精品| 精品人妻午夜一区二区三区四区 | 精人妻无码一区二区三区| 日韩欧美123区| 成人性生交大免费看| 91香蕉国产线在线观看| 激情内射人妻1区2区3区| 成人毛片100部免费看| 欧美一区国产一区| 成人动漫视频在线观看完整版| 国产成人精彩在线视频九色| 久久综合久久八八| 中文日韩在线视频| 亚洲男人天堂古典| 日韩欧美不卡一区| 在线观看91精品国产麻豆| 欧美性xxxx极品hd满灌| 亚洲一区在线观看免费观看电影高清 | 欧日韩不卡视频| 中文字幕高清视频| 色哟哟视频在线| 国产aⅴ爽av久久久久| 成人精品视频一区二区| 青青艹视频在线| 17c丨国产丨精品视频| 在线观看福利一区| 亚洲一区二区不卡视频| 国产一区在线免费观看| 国产精品加勒比| 97人人干人人| 亚洲综合日韩在线| 亚洲一区二区三区乱码aⅴ蜜桃女| 国产精品99一区| 日本高清视频精品| 日韩av123| 国产不卡精品视男人的天堂| 国产91久久婷婷一区二区| 欧美中文在线视频| 日本精品视频在线播放| 欧美中文在线观看| 国产精品wwww| 国产精品视频午夜| 国产日产欧美精品| 91社区国产高清| 亚洲自拍偷拍区| 91视频免费在线观看| 99久久精品免费看国产四区| 成人看片在线| 国产伦精品一区二区三区在线 | 欧美精品久久久| 日本午夜精品一区二区| 日日骚一区二区网站| 日韩欧美手机在线| 正在播放久久| 日本a在线天堂| 欧美激情 国产精品| 北条麻妃在线一区| 五月激情五月婷婷| 岛国精品一区二区三区| 女同毛片一区二区三区| 91精彩刺激对白露脸偷拍| 1024手机在线观看你懂的| 免费成人深夜夜行网站| 久久精品www人人爽人人| 韩国av中文字幕| 亚洲天堂国产精品| 国产成人三级在线观看视频| 视频在线在亚洲| 国产伦理精品不卡| 91在线精品秘密一区二区| 国产网站一区二区| 亚洲精品成人精品456| 第一福利永久视频精品| 欧美日韩国产美| 亚洲福利视频免费观看| 国产一区二区三区18| 欧美成人小视频| 国产999视频| 国产成人精品福利一区二区三区| 欧美亚洲精品日韩| 日本黄色片一级片| 在线观看高清免费视频| 亚洲av成人片无码| 天天操夜夜操av| 天堂网一区二区三区| 国产一区二区在线视频聊天| 五月天婷婷在线观看| 国产盗摄视频一区二区三区| 国产日韩欧美制服另类| 亚洲第一av色| 日韩一区二区在线看| 国产亚洲欧洲高清| 久久青草福利网站| 亚洲在线观看视频网站| 日本成人看片网址| 久在线观看视频| www.成人黄色| 婷婷丁香综合网| 国产女主播喷水视频在线观看 | 欧美三级日本三级| 中文字幕一区二区三区人妻四季| 玖玖国产精品视频| 99久久国产免费看| 亚洲成av人片在线观看无码| 日韩精品中文字幕一区二区三区| www.美女亚洲精品| 国产精品免费一区| 日韩欧美三级一区二区| 免费在线观看的毛片| 好吊日免费视频| 日韩精品一区二区三| 亚洲乱码精品久久久久..| 国产乱码精品一区二区三区忘忧草| 欧美激情一区二区| 欧美亚洲高清一区| 永久555www成人免费| 国产va免费精品高清在线| 久久久久高清| 99精品免费在线观看| 久久精品一区二区免费播放 | 国产成人av免费| 蜜桃av一区二区在线观看| 中文字幕不卡在线播放| 欧美性极品少妇| 最近2019好看的中文字幕免费 | 国产av自拍一区| 亚洲GV成人无码久久精品| 日韩精品高清不卡| 欧美激情中文不卡| 欧美日本在线观看| 欧美成人sm免费视频| 亚洲自拍高清视频网站| 777av视频| 免费看污黄网站在线观看| 无码人妻精品一区二区三区9厂 | 五月综合激情婷婷六月色窝| 精品国产1区二区| 欧美一区二区.| 奇米影视首页 狠狠色丁香婷婷久久综合 | 正在播放一区| av在线天堂网| 久久久久久久极品| 美女www一区二区| 亚洲靠逼com| 亚洲第一福利网| 国产精品久久久久久久久| 免费成人进口网站| 亚洲av成人片色在线观看高潮| 黄色av一级片| 国产成人av电影在线观看| 欧美视频在线看| 精品国产美女在线| 国产中文一区二区| 九九热精品在线播放| 日韩av在线电影| 青娱乐精品在线视频| 一区二区三区不卡在线观看| 亚洲男人的天堂在线播放| 91亚洲精品久久久| 红桃av在线播放| 成年人一级黄色片| 日本aⅴ精品一区二区三区| 亚洲综合男人的天堂| 亚洲精品色婷婷福利天堂| 91精品视频在线| 少妇高潮喷水久久久久久久久久| 亚洲一二三在线观看| 久久一日本道色综合久久| 亚洲美女精品一区| 一区二区三区精品99久久| 国产98在线|日韩| 激情五月俺来也| 国产精品美女久久久久av爽| 国产成人午夜视频| 欧美日韩激情在线| 欧美自拍视频在线| www.亚洲成人网| 天堂网中文在线观看| 老司机久久99久久精品播放免费| 亚洲黄一区二区三区| 中文字幕一区二区三区电影| 久久视频在线观看中文字幕| 日本少妇一级片| 国产又爽又黄免费软件| 国产精品网站在线| 亚洲无限av看| 久久国产精品免费一区| 国产吃瓜黑料一区二区| 99久久久久久久| 亚洲美女免费在线| 欧美精品在线第一页| 咪咪色在线视频| 潘金莲一级黄色片| 国产伦精品一区二区三区免费 | 亚洲成人自拍视频| 深爱五月激情网| 天堂一区二区在线免费观看| 日韩欧美黄色动漫| 欧美中文在线免费| 无遮挡又爽又刺激的视频| 69国产精品视频免费观看| 91麻豆高清视频| 日韩毛片在线看| 欧美激情视频一区二区三区| 亚洲一区二区观看| 秋霞午夜鲁丝一区二区老狼| 欧美三区免费完整视频在线观看| 国产精品视频色| 亚洲色图偷拍视频| 国产三级精品在线观看| 亚洲精品日韩一| 久久久久久久久久久免费 | 中文字幕影片免费在线观看| 亚洲成人av片在线观看| 日韩精品1区2区3区| 日韩一级av毛片| 黄色动漫网站入口| 日韩精品成人一区二区在线观看| 欧美激情成人在线视频| 亚洲国产日韩在线一区模特| 亚洲第一页综合| 久久人人妻人人人人妻性色av| 日本成人三级电影网站| 欧美精品一区在线播放| 欧美成人亚洲成人日韩成人| 精品国产免费视频| 国产性做久久久久久| 国内精品久久久久影院色| 国产91av在线播放| 色老头在线视频| 国产成人免费看一级大黄| 手机在线精品视频| 国产一二精品视频| 成人免费电影视频| 亚洲猫色日本管| 色综合夜色一区| 欧美军同video69gay| 日韩欧美中文免费| 欧美性猛交xxxxx水多| 亚洲久草在线视频| 亚洲国产精品t66y| 久久综合久久99| 91蝌蚪国产九色| 99在线视频精品| 91视频精品在这里| 97免费观看视频| jizz日本在线播放| 国产福利一区视频| 色狠狠久久av五月综合| 国产精品视频免费在线| 久久伊人精品视频| 日韩在线小视频| 日韩亚洲欧美中文高清在线| 日韩在线播放av| 亚洲激情自拍图| 亚洲美女视频网站| 日韩av资源在线播放| 91国产精品电影| 欧美在线日韩精品| 国产三级生活片| 国产又粗又长免费视频| 国产成人精品无码高潮| 国产乱理伦片在线观看夜一区| 久久色在线观看| 在线一区二区三区四区| 欧美日韩aaa| 欧美日韩卡一卡二| 欧美精品一区二区三区蜜桃视频| 91麻豆精品国产91久久久 | 欧美特黄一区二区三区| 无码人妻丰满熟妇啪啪欧美| 精品伦一区二区三区| 北条麻妃在线观看| 国产 国语对白 露脸| 亚洲一区三区| 日本在线成人一区二区| 国产区欧美区日韩区| 91免费看网站| 蜜桃在线一区二区三区精品| 伊人精品久久久久7777| 亚洲福利av| 偷拍盗摄高潮叫床对白清晰| 中文字幕第38页| 久久国产精品影院| 亚洲精品一区二三区| 国产综合久久久久影院| 亚洲乱码精品一二三四区日韩在线 | 日本少妇激三级做爰在线| 久久亚洲国产成人精品性色| 国产成人精品白浆久久69| 91在线观看下载| 91网址在线看| 欧美日韩国产限制| 日韩一卡二卡三卡国产欧美| 精品91自产拍在线观看一区| 中国china体内裑精亚洲片| 不卡av在线网站| 欧美在线视频一区二区| 91久久久亚洲精品| 麻豆亚洲一区| 日本不卡一区二区三区在线观看 | 一区二区三区久久久| 红桃视频成人在线观看| 欧美在线观看视频在线| 亚洲精品电影网在线观看| 国语自产精品视频在线看抢先版图片 | 日韩爱爱小视频| 天堂久久精品忘忧草| 国产成人在线视频观看| 久久精品女人| 成人动漫av在线| 国产精品视频麻豆| 亚洲国产精品久久久久秋霞影院| 日韩精品一区二区三区四区 | 91麻豆精品国产91久久久使用方法| 亚洲日本成人女熟在线观看| 色七七影院综合| 91精品国产一区| 亚洲最大av网站| 亚洲一区二区免费视频软件合集 | 国产一区二区播放| 国产一区二区三区视频免费观看| 国产草草影院ccyycom| 激情久久久久久久久久久久久久久久 | 婷婷四月色综合| 国语对白做受xxxxx在线中国| 久久久久久久久久久久久久久| 国产伦理一区二区| 99久久国产综合色|国产精品| 91久久香蕉国产日韩欧美9色| 97色在线视频| 亚洲精品无码国产| av在线播放中文字幕| 最新中文字幕免费| 少妇人妻偷人精品一区二区| 久久激情五月婷婷| 久久久久久久性| 中文字幕一区免费在线观看| 一区二区三区四区在线| 3d动漫精品啪啪| 国产亚洲精品久久久久久| 韩国视频理论视频久久| 日本免费高清不卡| 亚洲妇女无套内射精| 无码人妻丰满熟妇精品| 国产suv精品一区二区883| 91久久线看在观草草青青| 国产精品第一页在线| 激情综合网俺也去| 亚洲国产精品久久久久爰性色| 亚洲二区视频在线| 国产精品亚洲视频在线观看| 国产十八熟妇av成人一区| 久久精品国产精品亚洲红杏| 91 com成人网| 国产日韩欧美夫妻视频在线观看| 中文字幕人妻一区| 久久精品日韩欧美| 福利二区91精品bt7086| 久久精品国产欧美亚洲人人爽| 免费h精品视频在线播放| 在线不卡一区二区三区| av一级黄色片| 一区二区成人在线| 欧美大尺度在线观看| 日本高清不卡一区二区三|