亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當(dāng)前位置: 首頁 ? 資訊 ? 新科技 ? 正文

OpenAI發(fā)布權(quán)威AI科研基準(zhǔn),扯下AI遮羞布:奧賽金牌≠一流科學(xué)家!

IP屬地 中國(guó)·北京 新智元 時(shí)間:2025-12-17 14:17:20


新智元報(bào)道

編輯:艾倫

OpenAI最新發(fā)布的FrontierScience基準(zhǔn),試圖用真實(shí)的博士級(jí)難題,從物理、化學(xué)、生物三個(gè)維度上考驗(yàn)AI。真相是殘酷的:在沒有唯一標(biāo)準(zhǔn)答案的科研實(shí)戰(zhàn)中,AI作為「頂級(jí)做題家」,距離真正的科學(xué)家,還差得遠(yuǎn)。

OpenAI在2025年12月16日發(fā)布了一套新基準(zhǔn)FrontierScience,用來衡量AI在物理、化學(xué)、生物三門學(xué)科里,能否做到接近專家水準(zhǔn)的科學(xué)推理,而不只是背知識(shí)點(diǎn)。



OpenAI在文中把科學(xué)工作描述成一套更接近「持續(xù)試錯(cuò)」的流程。

提出假設(shè),設(shè)計(jì)驗(yàn)證,推翻再重來,還要把不同領(lǐng)域的線索拼成同一張圖。

模型越強(qiáng),問題就越尖銳,AI能不能把這種深推理用到真正的科研推進(jìn)上。

OpenAI提到,過去一年他們的系統(tǒng)在國(guó)際數(shù)學(xué)奧林匹克和國(guó)際信息學(xué)奧林匹克上達(dá)到了金牌級(jí)表現(xiàn),同時(shí)更重要的變化發(fā)生在實(shí)驗(yàn)室和辦公室里。

研究者開始拿這些模型做跨學(xué)科文獻(xiàn)檢索,跨語言讀論文,也拿它們?nèi)ネ茝?fù)雜證明。

有些原本要耗掉幾天甚至幾周的工作,被壓到幾小時(shí)就能跑完一輪。

為什么需要FrontierScience?OpenAI給了一個(gè)對(duì)比。

2023年11月,GPQA這個(gè)由博士專家撰寫、強(qiáng)調(diào)「谷歌搜不到」的科學(xué)題庫發(fā)布時(shí),GPT-4只拿到39%,低于專家基線74%。

兩年后,GPT-5.2在同一基準(zhǔn)上拿到92%。

當(dāng)舊題庫逐漸被刷穿,新的尺子就必須更長(zhǎng),否則你看不出模型還能往哪里發(fā)展。

FrontierScience的設(shè)計(jì)更像是給模型丟進(jìn)兩種不同的「科學(xué)難關(guān)」。

一類偏競(jìng)賽風(fēng)格,考你在約束條件下把推理做到干凈利落。


物理競(jìng)賽題示例

另一類更貼近研究現(xiàn)場(chǎng),要求你在開放問題里把思路走通,哪怕沒有標(biāo)準(zhǔn)答案那么工整。


物理科研問題示例

這套評(píng)測(cè)總量超過700道文本型題目,其中160道屬于「黃金組」(Gold Set)題目。

競(jìng)賽賽道有100道題,強(qiáng)調(diào)短答案形式,便于核驗(yàn)對(duì)錯(cuò)。

研究賽道有60個(gè)原創(chuàng)研究子任務(wù),由博士階段或更資深的研究者設(shè)計(jì),用10分制評(píng)分,拿到至少7分才算通過。


題目質(zhì)量是有充足保障的:

競(jìng)賽賽道和42位前國(guó)際獎(jiǎng)牌得主或國(guó)家隊(duì)教練合作,總計(jì)109枚奧賽獎(jiǎng)牌;

研究賽道由45位合格科學(xué)家與領(lǐng)域?qū)<覅⑴c,覆蓋從量子電動(dòng)力學(xué)到合成有機(jī)化學(xué),再到進(jìn)化生物學(xué)等細(xì)分方向。

OpenAI還承認(rèn)了一個(gè)不那么「中立」的細(xì)節(jié)。

兩套題在制作流程里會(huì)刻意淘汰OpenAI自家內(nèi)部模型已經(jīng)能答對(duì)的題,因此這套評(píng)測(cè)對(duì)OpenAI自家模型可能更苛刻一些。

與此同時(shí),他們開源了兩套賽道的「黃金組」題目,其余題目保留,用來追蹤數(shù)據(jù)污染。

OpenAI說,短答案適合機(jī)器判定,但研究型任務(wù)需要更細(xì)顆粒度的量表,于是他們用GPT-5充當(dāng)模型判卷員,對(duì)照短答案逐項(xiàng)打分。

理想狀態(tài)是請(qǐng)專家逐題批改,現(xiàn)實(shí)是規(guī)模不允許,于是規(guī)則被設(shè)計(jì)成盡量客觀且可被模型檢查,并配了驗(yàn)證流程來校準(zhǔn)難度與正確性。

成績(jī)單上,OpenAI給出了一輪初測(cè)對(duì)比。

他們?cè)u(píng)測(cè)了GPT-5.2、Claude Opus 4.5、Gemini 3 Pro、GPT-4o、OpenAI o4-mini、OpenAI o3等模型。OpenAI表示,GPT-5.2在競(jìng)賽題上得分77%,在研究題上得分25%,目前領(lǐng)先;Gemini 3 Pro在競(jìng)賽題上拿到76%,緊跟其后。


更值得注意的是失敗原因。

OpenAI從答題記錄里總結(jié),前沿模型仍會(huì)犯推理、邏輯和計(jì)算錯(cuò)誤,會(huì)卡在冷門概念上,也會(huì)出現(xiàn)事實(shí)性偏差。

另一個(gè)很樸素的觀察也被寫進(jìn)正文:模型想得更久,準(zhǔn)確率往往更高。


OpenAI對(duì)FrontierScience的邊界也直言不諱。

它把科研切成可控的題目,這讓評(píng)測(cè)更標(biāo)準(zhǔn)化,但也意味著它更像一張高清截圖,而不是科研的全景紀(jì)錄片。

尤其是它不評(píng)估模型能否提出真正新穎的假設(shè),也不覆蓋它與多模態(tài)數(shù)據(jù)和現(xiàn)實(shí)實(shí)驗(yàn)系統(tǒng)打交道的能力。

接下來,OpenAI計(jì)劃迭代題庫、擴(kuò)展領(lǐng)域,并配套更多真實(shí)世界評(píng)估,看這些系統(tǒng)究竟讓科學(xué)家多做成了什么。

奧賽金牌≠一流科學(xué)家,AI距離成為真正能獨(dú)當(dāng)一面的一流科學(xué)家,還有很長(zhǎng)的路要走完。

參考資料:

https://openai.com/index/frontierscience/

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

免責(zé)聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。

全站最新
欧美日韩在线观看一区二区| 中文字幕欧美人妻精品一区蜜臀| 国产精品热视频| 91麻豆swag| 少妇饥渴放荡91麻豆| 午夜精品久久久久久99热| 国产麻豆视频一区二区| 亚洲一区二区在线免费| 国产欧美欧洲在线观看| 欧美日韩性视频在线| 91国产免费视频| 欧美日韩亚洲第一| 精品久久久av| 中文字幕国产一区| 久久久久99精品成人片毛片| 亚洲成人一区二区三区| 欧美变态口味重另类| 蜜桃视频在线一区| 国产一区二区三区四| 日本中文字幕第一页| 中文字幕无码毛片免费看| 在线亚洲男人天堂| 久久亚洲综合色| 国产主播在线播放| 日本大片免费看| 欧洲成人免费aa| 亚洲一二三四区| 国产日韩免费视频| www.51色.com| 成人综合色站| 亚洲福利在线播放| 97成人超碰视| 日本高清不卡码| 亚洲人成人无码网www国产| 国产成人一区二区三区免费看| 日韩一区二区在线免费观看| 国产剧情av麻豆香蕉精品| 男女性高潮免费网站| 欧美这里只有精品| 欧美一级视频在线观看| 欧美色图一区二区三区| 成人综合婷婷国产精品久久蜜臀 | 欧美日韩一区二区电影| 国产一区二区视频在线| 精品一区在线视频| 99精品视频播放| 国产精品v欧美精品v日韩精品| 亚洲精品视频在线播放 | 国产高潮视频在线观看| 少妇免费毛片久久久久久久久| 日韩视频免费中文字幕| 午夜精品久久久久久久久| 老司机午夜精品99久久| 无码人妻精品一区二区三区不卡 | 国产精品美女久久福利网站 | 日韩视频在线视频| 91视频国产高清| 国产一区二区三区视频免费| 亚洲成人午夜电影| 波多野结衣视频一区| a级片在线视频| 中国美女黄色一级片| 亚洲欧美日韩一级| 亚欧精品在线| 国产欧美va欧美va香蕉在| 中文日韩电影网站| 欧美喷潮久久久xxxxx| 中文字幕一区二区三区av| 美女视频免费一区| 亚洲性在线观看| 国产一二三四区| 扒开伸进免费视频| www.xxx麻豆| 欧美日韩国产一二| 成人xvideos免费视频| 久久精彩免费视频| 亚洲韩国欧洲国产日产av| 色综合久久久久久久久久久| 国产精品视频免费| 成人免费不卡视频| 麻豆一区二区三| 国产成人无码www免费视频播放| 国产在线观看成人| 欧美xxxooo| 国产精品无码久久久久一区二区| www亚洲成人| 免费成人午夜视频| av一区二区三区免费观看| 色综合电影网| 免费99视频| 精品在线视频一区二区| 波多野结衣精品久久| 国产精品va在线| 人人做人人澡人人爽欧美| 欧美激情性做爰免费视频| www.美女亚洲精品| 中文字幕日韩免费视频| 国产视频自拍一区| 在线看欧美日韩| 一区二区三区黄色| 日韩在线观看免费全集电视剧网站| 国产视频丨精品|在线观看| 亚洲男人第一网站| 亚洲视频在线观看免费| 亚洲少妇中文在线| 日韩一区二区久久久| 久热精品视频在线| 国语自产精品视频在线看| 97国产suv精品一区二区62| 69久久夜色精品国产69乱青草| 668精品在线视频| 国产精品igao视频| 成人久久一区二区| 国产一区高清视频| 丰满少妇大力进入| 国产日韩欧美日韩大片| 成人夜晚看av| 狼狼综合久久久久综合网| 亚洲区成人777777精品| 女人扒开屁股爽桶30分钟| 国产三级生活片| 鲁丝一区二区三区| 中文字幕日韩一级| 亚洲爱爱综合网| 国产99久久久国产精品免费看| bt欧美亚洲午夜电影天堂| 亚洲日本中文字幕区| 欧美性大战xxxxx久久久| 亚洲欧美日本另类| 国产91精品最新在线播放| 国产精成人品localhost| 欧美极品少妇无套实战| 五月天婷婷在线观看视频| 嘿嘿视频在线观看| 国产一区二区自拍视频| 国产一区二区在线电影| 亚洲精品高清在线观看| 在线播放/欧美激情| 欧美成人一二三| 国产一级精品aaaaa看| 熟女性饥渴一区二区三区| 婷婷色一区二区三区| 亚洲av无码乱码国产精品fc2| 老司机精品视频网站| 国产精品久久久久久久久久免费看| 亚洲国产精品视频| 亚洲视频一区二区三区| 91在线色戒在线| 久久久999视频| 久久一级免费视频| 熟妇高潮一区二区高潮| 国产精品久久久爽爽爽麻豆色哟哟 | 韩日欧美一区二区三区| 狠狠躁夜夜躁人人爽天天天天97| 国产亚洲精品久久久久久牛牛| 91在线观看免费观看 | 在线播放欧美女士性生活| 57pao成人国产永久免费| 欧美 日韩 国产 在线观看| www.超碰97| 五月天婷婷激情网| 欧美日韩国产中文字幕| 国内精品美女av在线播放| 大陆极品少妇内射aaaaaa| 国产一区二区三区视频播放| 免费av网站大全久久| 日本韩国欧美国产| 国产精品69精品一区二区三区| 成人在线观看你懂的| 日本在线免费观看| 成人av网站在线观看免费| 精品国一区二区三区| 亚洲精品欧美一区二区三区| 亚洲图片 自拍偷拍| 国产熟女一区二区丰满| 亚洲一二三四在线| 91大神福利视频在线| aaa一区二区| 久久午夜a级毛片| 一区二区视频观看| 亚洲欧美乱综合| 成人黄色大片在线免费观看| 日韩精品一区二区av| 精品久久久久久最新网址| 久久精品一区二| 成人免费va视频| 国产一区二区视频在线免费观看| 亚洲av无码国产综合专区| gogo大胆日本视频一区| 亚洲男人第一网站| 国产亚洲精品久久久久久久| av图片在线观看| 亚洲国产一区二区三区青草影视| 国产精品成人免费电影| 日韩 中文字幕| 国产精品一区二区在线观看网站| 亚洲国产精品人人爽夜夜爽| 亚洲欧洲精品一区二区| 无码人妻黑人中文字幕| 色网站国产精品| 久久青青草原| 无码人妻精品一区二| 欧美最新大片在线看| 日韩中文字幕一区| 在线视频播放大全| 日韩一区二区三区av| 日本大片免费看| 少妇又色又爽又黄的视频| 精品久久五月天| 国产精品后入内射日本在线观看| 神马午夜电影一区二区三区在线观看| 日韩欧美黄色影院| 久色视频在线播放| 日本亚洲免费观看| 欧美日本黄视频| 久久久国产精品无码| 欧美激情一区在线| 国产综合久久久久久| 久久无码精品丰满人妻| 欧美在线观看18| 日本一本草久p| 石原莉奈一区二区三区在线观看 | 粗暴91大变态调教| 国产91丝袜在线播放0| 久久免费在线观看| 精品日韩在线视频| 五月婷婷激情综合| 黄网站色视频免费观看| 奇米四色…亚洲| 欧美日韩成人在线播放| 中文字幕成人动漫| 制服视频三区第一页精品| 国产精品久久在线观看| a一级免费视频| 色婷婷av一区二区三区大白胸 | 亚洲欧美国产77777| 日本福利一区二区三区| 天天综合网在线| 欧美亚洲成人精品| 久久久精品免费看| 日韩精品中文字幕有码专区| 你懂的在线观看网站| 亚洲一区二区影院| 久久久久久免费看| 久久欧美中文字幕| 久久青青草综合| 免费在线看一区| 国产精品主播视频| 国产免费一区二区三区最新不卡 | 韩国毛片一区二区三区| 国产日韩欧美另类| 国产精品怡红院| 欧美激情综合亚洲一二区| 久久婷婷综合国产| 国产亚洲欧美日韩一区二区| 人妻精品久久久久中文| 欧美一级理论性理论a| 亚洲观看黄色网| 欧美一级高清片| 精品人妻互换一区二区三区| 欧美在线观看视频一区二区三区| 国产精品自在自线| 色哦色哦哦色天天综合| 美女流白浆视频| 欧美日韩综合在线免费观看| 在线播放av网址| 69久久夜色精品国产69蝌蚪网| 最新版天堂资源在线| 日韩一级二级三级精品视频| www.久久av| 亚洲精品综合精品自拍| 久久精品久久精品久久| 欧美成人黑人xx视频免费观看| 成人免费视频国产免费| 91成人在线视频| 亚洲AV午夜精品| 成人自拍网站| av色综合久久天堂av综合| 亚洲中文字幕无码一区二区三区| 中文字幕一区在线| 亚洲污视频在线观看| 欧美日韩久久一区二区| 萌白酱视频在线| 久久福利网址导航| jizz中国少妇| 久久久久久a亚洲欧洲aⅴ| 久久久精品综合| 久久综合在线观看| 亚洲国产精品中文| 天堂а√在线中文在线新版| 欧美一区二三区| 男女男精品视频网| 国产精品videossex国产高清| 亚洲图片有声小说| 欧美一级大片免费看| 亚洲欧美精品在线| 国产熟女一区二区三区五月婷| 国产91免费视频| 国产欧美日韩一区二区三区在线观看| 久久久精品在线视频| 日韩亚洲国产中文字幕欧美| 日韩美女黄色片| 国产精品1234| 久久影院电视剧免费观看| 亚洲一区在线不卡| 亚洲热线99精品视频| wwwav在线播放| 欧美国产一区二区在线| 亚洲高清免费观看高清完整版在线观看| 18禁裸乳无遮挡啪啪无码免费| 尤物tv国产一区| 午夜在线视频观看| 黄网站欧美内射| 精品久久人人做人人爰| 国产欧美熟妇另类久久久 | 久久高清无码视频| 亚洲www视频| 亚洲丰满少妇videoshd| 欧美日韩精品在线观看视频| 国产精品永久在线| 国产精品久久久久久久久果冻传媒| 91丝袜超薄交口足| 欧美大成色www永久网站婷| 国内精品不卡在线| 一级特级黄色片| 国产精品欧美一区二区| 亚洲三级久久久| 日本一区二区免费在线观看| 韩国成人av| 欧美精品18+| 国产女人高潮时对白| 人妻久久久一区二区三区| 国产亚洲激情在线| www.色精品| 少妇aaaaa| 先锋影音日韩| 亚洲欧美制服综合另类| 久久99国产精品成人| 蜜臀av粉嫩av懂色av| 国产成人精品av| 欧美午夜电影在线| 国产视频在线观看免费| 手机视频在线观看| 国产福利精品av综合导导航| 亚洲免费观看高清完整| 日本黄色中文字幕| 欧美成人xxxxx| 78色国产精品| 欧美日韩亚洲91| 日本精品999| 亚洲人成人无码网www国产| 精品国产_亚洲人成在线| 亚洲精品mp4| 久久久亚洲欧洲日产国码αv| 久久视频免费在线观看| 人人妻人人添人人爽欧美一区| 韩日欧美一区二区| 色综合激情五月| 久久99国产精品麻豆| 亚洲色婷婷一区二区三区| 妞干网视频在线观看| 久久久免费观看视频| 欧美日韩成人在线| 探花国产精品一区二区| 日本一二三区视频在线| 不卡中文字幕av| 欧美午夜视频一区二区| 五月婷婷六月色| 永久久久久久久| 亚洲老女人av| 奇米视频888战线精品播放| 久久综合免费视频影院| 午夜精品福利久久久| 国产伦精一区二区三区| 人人草在线观看| 99re久久精品国产| 久久99久久久久久| 亚洲在线www| 少妇av一区二区三区| 欧美视频在线视频| 99久久精品久久久久久清纯| 11024精品一区二区三区日韩| 久久丫精品国产亚洲av不卡| 日产精品久久久久久久蜜臀| 亚洲精品免费网站| 欧美国产日韩在线| 欧美精品久久99| 17c精品麻豆一区二区免费| 日本不卡的三区四区五区| 成人免费视频毛片| 瑟瑟视频在线观看| 免费激情视频在线观看| 亚洲欧美国产不卡| 91最新在线免费观看| 久久天天躁狠狠躁夜夜爽蜜月| 欧美剧情片在线观看| 亚洲影院理伦片| 久久久亚洲精品一区二区三区 | 伊人狠狠色丁香综合尤物| 91九色蝌蚪国产| 亲爱的老师9免费观看全集电视剧| 亚洲视频一区二区三区| 91精品国产综合久久久久| 亚洲综合免费观看高清完整版 | 国产成人久久精品77777综合| 精品一区二区三区日韩| 久久精品这里都是精品| 一区二区三区视频在线观看| 亚洲а∨天堂久久精品喷水| 国产成人av在线播放|