亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

僅用提示詞工程摘下IMO金牌!清華校友強強聯手新發現

IP屬地 中國·北京 編輯:蘇婉清 量子位 時間:2025-08-02 14:10:07

鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI

無需谷歌“鈔能力”,兩位清華校友強強聯合,直接讓基礎模型Gemini 2.5 Pro輕松達到IMO金牌水平。

只需一個小小的提示詞改動……



該發現來自兩位清華校友楊林黃溢辰,他們共同設計了一套自我迭代驗證流程和提示詞優化,就成功讓Gemini 2.5 Pro完成了今年IMO題目的解答。

他們還剛剛更新了代碼,直接利用通用提示詞就能實現模型推理增強。



好家伙,原來我們都被LLM騙了,基礎大模型早就彎道超車,具備超強的解決復雜數學推理問題的能力。

只不過,直接用效果并不好。

就像MathArena也用Gemini?2.5?Pro跑了本次IMO題目,結果只有13分,遠低于IMO銅牌門檻(19/42)。



但只要加一點點提示詞魔法和迭代驗證,就能實現1+1>2。

這一點也受到了陶哲軒的認可:

我認同嚴格驗證是在復雜數學任務中取得出色表現的關鍵。



具體是怎么做到的?我們接著往下看。

通用提示詞+迭代驗證

首先為什么最近AI模型都喜歡參加IMO測試呢?

其實是因為相較于面向中小學水平題目的傳統數學基準GSM8KMATH等,IMO可以更為充分地考驗模型的抽象思維和多步驟邏輯推理能力,堪稱檢驗LLM推理能力的“試金石”

不過前幾年模型結果都不盡如人意,要么是無法理解題目要求,要么是“偏科”某一類問題。

直到今年才首次有官方認可的金牌AI出現,谷歌OpenAI均完成了5道題,其中谷歌Gemini模型搭載了新的Deep Think模式,OpenAI的模型據悉也是在通用強化學習計算擴展方面實現了技術突破。

但現在,研究團隊只用提示詞設計,就達成了上述效果。



關鍵在于,他們設計了一套自我驗證流程,依次可分為六個步驟:

初始解決方案生成:模型首先根據提示詞生成初步解答,要求每一步邏輯推理清晰、解釋明確。自我改進:模型對初始答案進行回顧和優化,彌補初始生成中因思維預算有限導致的不足。驗證解決方案并生成錯誤報告:在驗證器中根據提示詞驗證解答,生成包含關鍵錯誤(如邏輯謬誤或事實錯誤)和不完整論證在內的問題報告。審查錯誤報告(可選):對問題報告進行復核,刪除誤報的問題,提升報告可靠性。基于錯誤報告糾正或改進解決方案:根據問題報告改進解答,修正后返回驗證步驟。接受或拒絕解決方案:若解答連續5次都通過驗證,則接受該回答;若連續迭代10次,都存在重大問題,則拒絕此答案。

具體來說,整個過程是由Gemini 2.5 Pro構成的求解器(solver)和驗證器(verifier)執行,采用差異化提示詞以達到不同作用。

其中求解器主要負責生成和改進答案,在提示詞設計上將嚴謹性設為首要目標,確保結果可嚴格驗證。

但由于Gemini 2.5 Pro的最大思考tokens為32768,在初始生成答案時無法獨立完成負責的IMO問題,所以通過步驟2中的自我改進,額外注入32768 tokens,讓模型回顧并優化初始解答,提升整體質量。

然后使用驗證器模擬IMO評分專家,進行迭代改進,并決定是否接受改進后的解決方案。

驗證器會逐一檢查解答并找出存在的問題,將問題分為關鍵錯誤論證缺口兩類,其中關鍵錯誤是指明顯錯誤或存在清晰邏輯謬誤的內容,會嚴重破壞證明的邏輯鏈條,引向錯誤答案。

論證缺口包含主要缺口次要缺口,主要缺口可能會導致整個證明失敗,而次要缺口可能會產生正確結論,但論證仍然是不完整的。

當發現問題后,驗證器隨即會輸出一份錯誤報告,為模型改進解決方案提供有用信息,在步驟4中對驗證器的誤判進行改正,然后模型根據報告嘗試改進答案。

由于驗證器可能出錯,所以需要足夠次數的重復迭代,降低誤判影響,最終如果答案能通過驗證則接受,如果始終存在關鍵錯誤或主要論證缺口,則拒絕。



具體實驗過程中,研究團隊選擇剛剛發布的IMO 2025題目,因為發布時間較短,可以有效避免訓練數據污染,確保評估的真實性。

另外在參數設置上,選擇較低的溫度值0.1,因為較高的溫度可能會導致更多的隨機錯誤,并使用Gemini 2.5 Pro的推理token上限,同時排除其它模型、代碼干擾。

關鍵提示詞中,初始生成的提示詞要求有充分理由支撐答案,如果不能找到完整解決方案,不能進行編造,且所有數學內容用TeX格式呈現。



輸出格式需嚴格按照總結到詳細解決方案的順序,其中總結包括結論和方法概述,詳細解決方案中需要呈現完整、逐步的數學證明,在最終輸出前還要仔細檢查以符合所有指令。

驗證提示詞里,唯一任務就是找出并報告解決方案里的所有問題,并不嘗試糾正漏洞,需生成詳細驗證日志并將問題進行分類,輸出格式包括總結和詳細驗證日志,總結又包括最終判定和發現列表。



最終,模型實現為IMO的6道題目中的5道生成了完整且數學嚴謹的解決方案,其中前兩道題目各生成了有提示和無提示的兩種解決方案。

第一題提示使用數學歸納法,第二題提示使用解析幾何完成,通過對比可得,詳細的提示詞可以減少計算搜索空間、提高效率,但并不會額外賦予模型新的能力。

在未能解決的第六題上,研究人員發現模型是在其中一個有關證明時出現核心錯誤,從而導致后續證明無效。

實驗結果證明,結構化迭代流程將是LLM的潛在能力轉化為嚴謹數學證明的關鍵,可突破單次生成中例如有限推理預算和初始答案錯誤等局限性。

另外研究人員預計,如果使用Grok 4OpenAI-o系列或者類似于Grok 4 heavy的多智能體系統代替,可能會產生更強的數學能力。

清華校友強強聯合

本次研究的兩位作者——黃溢辰楊林,他們是清華大學數學物理基礎科學實驗班的本科同學,畢業后又分別前往海外高校深造。



黃溢辰在加州大學伯克利分校取得物理學博士學位后,曾在微軟擔任AI研究員,后在加州理工學院擔任博士后,師從凝聚態物理領域大拿陳諧教授。

陳諧教授本科同樣畢業于清華大學,并在2012年獲得麻省理工學院理論物理博士,目前是加州理工學院的Eddleman理論物理學教授。

主要研究的是量子凝聚態系統中的新型相和相變,包括強關聯系統中的拓撲序、多體系統動力學、張量網絡表示以及量子信息應用等。

曾在2017年斬獲斯隆獎,后又因其對物質拓撲態及相互關系的卓越貢獻,榮獲2020年物理學新視野獎,該獎項隸屬于科學突破獎的子獎項,要知道科學突破獎也被譽為當代科學界的“奧斯卡獎”

后續黃溢辰又接著在麻省理工學院理論物理中心和哈佛大學物理系繼續從事博士后研究,主要研究方向是量子物理學,包括量子信息學、 凝聚態理論和機器學習。



另一位作者楊林,目前是加州大學洛杉磯分校的副教授,任職于電氣與計算機工程系以及計算機科學系。



此前,他曾獲得約翰霍普金斯大學的計算機科學和物理與天文學雙博士學位,又曾在普林斯頓大學從事博士后研究,師從王夢迪教授。

王夢迪14歲就考入清華,23歲就從麻省理工學院博士畢業,其導師還是美國國家工程院院士Dimitri P. Bertsekas,年僅29歲就成為普林斯頓大學終身教授。

研究領域主要涉及生成式人工智能、強化學習、大語言模型等,2024年還曾獲得控制領域最高獎項Donald P. Eckman獎(每年僅頒發給一位獲獎者)。

而楊林教授的研究重點則是強化學習理論與應用、機器學習和優化理論、大數據處理和算法設計等,他曾在ICMLNeurIPS等頂級機器學習會議上發表過多篇論文,還曾獲得亞馬遜教授獎、西蒙斯學者獎等。

有限的資源下,學術界也能比肩大廠

對于本次研究的相關細節,量子位也和楊林教授深入聊了聊。

首先是為什么會優先選擇Gemini 2.5 Pro作為研究對象,楊林教授表示:

實驗開始時Gemini相對比較方便,可調的參數較多。

而當談及Gemini 2.5 Pro在解決前5道問題所涉及的計算資源和耗時,楊林教授也是坦然回應道:

具體資源我們沒有仔細統計,但大致估算下,第一步大概需要60000token,之后的每次驗證,如果通過則15000token,如果需要修改則需要30000token。每次由于隨機性都會有所差異,不同題目需要的tokens數在300k到5000k都是有可能的,比如運氣不好的時候,一道題目就做了8次獨立實驗。而計算時間則取決于谷歌服務器的空閑度,最快10分鐘左右就能解出一道題。

關于使用提示前后模型的差異,楊林教授也表示:

當使用提示后,模型基本一次獨立實驗(Agent輸出失敗或成功算一次獨立實驗)就能解決題目,但不使用模型的思維會發散,之前提及的8次獨立實驗就是在沒有使用提示的情況下出現的。

至于沒有成功解決的第六題,楊林教授認為主要問題還是出在驗證器上:

當求解器輸出假陽性答案時,驗證器沒能很好地區分一些細節。

目前團隊已經進行了手動驗證,自我檢查了證明的所有細節,但缺乏官方評分,楊林教授也希望如果組委會有興趣,他們很樂意參與IMO官方評分,進一步驗證解答。

未來他們也將會通過使用更多訓練數據進行預訓練和微調,以提升基礎模型的能力。

之后楊林教授也分享了一些本次研究中他所收獲的心得體會:

有時候基礎模型的能力需要用其它方法釋放,如果未來模型訓練達到瓶頸,那么Agent方法可能是破局的關鍵。而本次研究也讓我們看到,學術界利用有限的資源,也能做出與大廠同等重要的成果。

他也希望AI在未來能在數學研究中扮演更為重要的角色,尤其是在一些長期懸而未決的問題上

最后也幫讀者朋友們向教授詢問了一些與AI共存的建議,楊林教授相當謙虛地表示:

同學們比我年輕,對AI的使用可能比我更加自然,所以我提不出什么建議。但就我自身而言,我希望在使用AI的同時,也能提高自身的知識水平。簡而言之就是,使用并向它學習。

論文鏈接:https://www.alphaxiv.org/abs/2507.15855v2

參考鏈接:
[1]https://x.com/ns123abc/status/1948223115437154372
[2]https://github.com/lyang36/IMO25
[3]https://x.com/lyang36/status/1947466281990738339

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

国产亚洲精品久久久久久无几年桃 | 久久久久网址| 亚洲精选视频免费看| 免费人成又黄又爽又色| 国产va免费精品高清在线| 91丨九色丨蝌蚪富婆spa| 爱爱的免费视频| 国产97在线视频| 国产精品乱码一区二区三区软件 | 精品人妻大屁股白浆无码| 精品久久久三级丝袜| 亚洲黄色小说网| av观看免费在线| 久久夜色精品国产亚洲aⅴ| 国产91精品久久久久久久网曝门| 色婷婷精品久久二区二区密| 国产精品国产三级国产专播精品人| 国产精品免费aⅴ片在线观看| 久久久久久视频| 久久国产精品久久| 91麻豆精品国产自产在线| 亚洲黄色在线免费观看| 色播五月激情五月| 欧美性视频精品| 亚洲蜜臀av乱码久久精品蜜桃| 欧美成人精品激情在线视频| 免费日韩av电影| 欧美疯狂做受xxxx富婆| 久久亚洲视频| 欧美xxxx日本和非洲| 日本视频久久久| 一区二区三区产品免费精品久久75| 你懂的国产在线| 国产乱子伦精品视频| 国产亚洲综合久久| 972aa.com艺术欧美| 国产精品九九九九九九| 中文字幕中文字幕在线中心一区 | 好看的日韩精品| 91精品国产综合久久精品图片| 久久精品五月| 亚洲av成人片色在线观看高潮| 91免费的视频在线播放| 欧美日韩国产高清一区二区三区| 久久久亚洲一区| 日韩精品人妻中文字幕有码 | 99久久久无码国产精品性波多| 国产精品看片资源| 欧洲色大大久久| 日韩高清电影一区| 中文字幕av网址| 欧美人xxxxx| 亚洲久久久久久久久久久| 91丝袜美腿高跟国产极品老师| 免费看一级一片| 欧美人与动牲交xxxxbbbb| 久久久国产视频91| 亚洲精品ww久久久久久p站 | 一区二区三区国产精品| av无码精品一区二区三区宅噜噜| 五月六月丁香婷婷| caoporen国产精品| 亚洲高清一区二| 久久久久亚洲综合| 日韩欧美一级大片| 毛片毛片毛片毛片毛| 国产另类自拍| 亚洲一区二区国产| 日韩一区在线免费观看| www.黄色一片| 日本黄色网址大全| 一区二区三区三区在线| 九九热精品视频国产| 午夜伊人狠狠久久| 日本强好片久久久久久aaa| 国产精品suv一区二区88| 毛片av在线播放| 日韩美女写真福利在线观看| 欧美久久久影院| aa级大片欧美| 在线观看中文字幕av| youjizz.com日本| 亚洲精品乱码久久久久久蜜桃91 | 日韩国产亚洲欧美| xxxxwww一片| 日本一区二区三区视频免费看| 日韩在线观看你懂的| 亚洲在线视频一区| 蜜桃av一区二区在线观看 | 成人动漫av在线| 制服丝袜在线一区| 一本色道综合久久欧美日韩精品| 中文字幕一区二区三区有限公司| 2019精品视频| 精品久久一二三区| 伊人夜夜躁av伊人久久| 麻豆精品精品国产自在97香蕉| 欧美激情国产精品免费| www.com黄色片| 麻豆91av| 18一19gay欧美视频网站| 日韩免费高清视频| 日韩美女久久久| 蜜臀av性久久久久蜜臀aⅴ流畅| 日本中文字幕网| 丰满人妻一区二区三区53视频| 日本不卡二区高清三区| 97超碰蝌蚪网人人做人人爽| 日韩精品一区二区三区中文不卡 | 亚洲免费av网址| 亚洲已满18点击进入久久| 久久99久久精品欧美| 中文字幕手机在线视频| 久久无码人妻精品一区二区三区 | 91丝袜美腿美女视频网站| 亚洲毛片一区二区| 欧美午夜精品久久久久久人妖 | 91精品国产综合久久婷婷香蕉| 国产日韩在线不卡| 日韩av中文字幕一区二区| 日产精品久久久| 中文字幕5566| 999在线免费视频| 亚洲 日韩 国产第一区| 国产免费一区二区三区在线观看| 在线免费观看羞羞视频一区二区| 色88888久久久久久影院野外| 久久综合色综合88| 亚洲欧洲成人在线| 成人一二三四区| 国产喷水在线观看| 99热这里只有精品2| 中文字幕无码精品亚洲资源网久久| 国产精品久久精品国产| 欧洲亚洲免费在线| 日韩一区二区在线视频| 欧美丰满一区二区免费视频| 亚洲一区中文在线| 国产色爱av资源综合区| 国产在线看一区| 亚洲精品中文字幕成人片| 99精品视频99| 日韩在线观看免| 国产精品一区二区无码对白| 亚洲午夜无码av毛片久久| 日本视频精品一区| 147欧美人体大胆444| 欧美一区在线直播| 久久成人av网站| 亚洲视频在线播放| 日韩一级片在线观看| 色先锋aa成人| 亚洲在线视频网站| 国产亚洲综合av| 国产剧情一区二区三区| 性xxxx视频| 国产视频第一页| 亚洲 欧美 中文字幕| 日本天堂中文字幕| 欧洲美熟女乱又伦| 国产真实乱人偷精品| 在线黄色免费观看| 日本www高清视频| 成年人视频网站免费| 亚洲一区二区三区色| 欧美日韩综合网| 国产一区二区无遮挡| 91探花福利精品国产自产在线| 日本精品中文字幕| 久久久久久尹人网香蕉| 久久综合伊人77777尤物| 日韩精品在线播放| 亚洲第一天堂无码专区| 日韩欧美在线影院| 欧美日韩大陆在线| 欧美性感一类影片在线播放| 欧美性xxxx极品hd满灌| 亚洲国产日日夜夜| 一区二区日韩电影| 亚洲精品写真福利| 中文字幕一区二区三区av| 国产亚洲短视频| 久久综合色8888| 99re视频这里只有精品| 成人高清视频在线观看| 风间由美性色一区二区三区| 国产精品一区二区视频| 国产精品一区二区三区99| 国产伦精品一区二区三区免费迷| 日本不卡高清视频| 秋霞午夜鲁丝一区二区老狼| 日本亚洲天堂网| 热久久免费视频| 蜜臂av日日欢夜夜爽一区| 日韩国产欧美三级| 免费在线观看视频一区| 久草中文综合在线| 国产乱对白刺激视频不卡| 国产在线视视频有精品| 成人精品视频.| www久久精品| 国产精品视频在线看| 18成人在线观看| 亚洲综合一区二区精品导航| 亚洲一区二区精品视频| 午夜精品aaa| 欧美专区亚洲专区| 91精选在线观看| 亚洲护士老师的毛茸茸最新章节 | 鲁片一区二区三区| 色女人综合av| 污污污污污污www网站免费| 成年人视频观看| 中文字幕第88页| 少妇伦子伦精品无吗| 国产交换配乱淫视频免费| av在线免费播放网址| 免费在线黄色片| 欧美日韩a v| 欧美自拍偷拍第一页| 免费一级欧美片在线观看| 精品在线视频一区| av欧美精品.com| 国产精品高清亚洲| 欧美日韩免费区域视频在线观看| 欧美性大战久久久久久久蜜臀 | 成人免费午夜电影| 免费看成人午夜电影| 国产一二三四区在线观看| 凹凸国产熟女精品视频| 91网址在线观看精品| 日韩人妻无码一区二区三区| 日韩一区二区三区四区在线| 亚洲国产精品无码久久久| 精品区在线观看| 国产专区欧美精品| 中日韩av电影| 欧美性猛交xxxx黑人| 精品国产乱码久久久久久夜甘婷婷| 国产视频精品一区二区三区| 久久99精品视频一区97| 国产精品男人的天堂| 久久视频在线观看中文字幕| 成人在线视频一区二区三区| 91插插插插插插插插| 伊人网伊人影院| 久久久久久福利| 国产精品一二三四五区| 蜜臀久久久久久久| 久久久三级国产网站| 欧美日韩久久久久| 日韩国产精品视频| 97人人做人人爱| 成人在线视频网址| 欧美精品卡一卡二| 日批在线观看视频| 中日韩精品视频在线观看| 亚洲黄色a级片| k8久久久一区二区三区| 亚洲sss视频在线视频| 亚洲电影成人av99爱色| 午夜精品一区二区三区av| 国内精品久久国产| 奇米精品一区二区三区| 精品一区二区视频在线观看| 久久久久成人精品无码| 色综合视频在线| 国产亚洲精品bt天堂精选| 色成人在线视频| 中文字幕日韩精品在线观看| 成人国产在线激情| 男女激烈动态图| 风韵丰满熟妇啪啪区老熟熟女| 精品少妇久久久久久888优播| 好吊色在线观看| 久久久精品天堂| 欧美欧美午夜aⅴ在线观看| 欧美精品日韩www.p站| 国产一区二区高清视频| 可以免费在线看黄的网站| 国产又粗又黄又猛| 99国产精品欲| 91视频一区二区| 欧美日韩国产综合一区二区三区| 久久久国产精品视频| 国产日韩欧美一区二区三区四区| 自慰无码一区二区三区| 刘亦菲国产毛片bd| 亚洲精品国产av| 中文字幕高清不卡| 精品欧美乱码久久久久久 | 亚洲美女在线视频| 亚洲伊人久久大香线蕉av| 成人在线免费在线观看| 日韩三级在线观看视频| 久热精品视频| 夜夜嗨av一区二区三区| 国产一区二区三区欧美| 国产精品一码二码三码在线| 国产91色在线观看| 91久久国产视频| 国产成人一级电影| 在线免费观看不卡av| 国外成人在线播放| 亚洲精品在线免费| 熟女俱乐部一区二区| 免费的黄色av| 亚洲一区在线观看网站| 久久天堂av综合合色| 色视频一区二区三区| 天天插天天射天天干| 精品国产av 无码一区二区三区| 国产精品网曝门| 亚洲系列中文字幕| 久久久99国产精品免费| 折磨小男生性器羞耻的故事| 国产女人高潮的av毛片| 国产精品剧情在线亚洲| 亚洲最新视频在线| 欧美日韩三区四区| av无码一区二区三区| 成人毛片在线免费观看| 亚洲一区国产视频| 欧美激情欧美激情| 国产日韩亚洲欧美在线| 青娱乐国产盛宴| 国产91精品露脸国语对白| 欧美成人三级电影在线| 亚洲综合在线中文字幕| 亚洲成人av免费观看| 国产视频第一页| 一区二区高清免费观看影视大全| 日韩视频亚洲视频| 在线视频欧美一区| 欧美精品久久久久久久久46p| 韩国三级中文字幕hd久久精品| 欧美色视频一区| 成人性生交大片免费观看嘿嘿视频 | 一区二区视频在线看| 欧美黑人巨大精品一区二区| a天堂资源在线观看| 九九九国产视频| 不卡一区中文字幕| 亚洲网在线观看| 亚洲成色www久久网站| 欧美xxxooo| 韩国av一区二区三区| 日韩免费观看高清完整版在线观看| 俄罗斯精品一区二区| 亚洲男人在线天堂| 日av在线不卡| 精品国产一区二区三区av性色| 国内精品二区| 懂色av粉嫩av浪潮av| 国产成人综合亚洲网站| 亚洲精品黄网在线观看| 欧洲一区二区在线| 国产高潮国产高潮久久久91| 91久色porny| 久久国产天堂福利天堂| 午夜肉伦伦影院| 国产三级在线观看视频| 色综合色综合色综合| 亚洲自拍在线观看| 精品无人区无码乱码毛片国产| 国产精品一区二区三区乱码| 亚洲欧美日韩中文视频| 中文字幕在线乱| 无码人妻精品一区二区蜜桃色欲 | 免费精品视频最新在线| 日韩一区二区精品在线观看| 久久久久久草| 黄色录像一级片| 中文字幕欧美日本乱码一线二线| 欧美国产日韩一区二区| 日本xxxx黄色| 久久国产免费| 亚洲国产精品电影在线观看| 日韩视频在线免费播放| 亚洲不卡在线视频| 亚瑟在线精品视频| 91pron在线| 欧美特黄一级片| 亚洲欧洲国产专区| 国产精品aaaa| 91成年人网站| 久久一二三国产| 午夜精品三级视频福利| 美女伦理水蜜桃4| 国产91精品久久久久久久网曝门| www日韩中文字幕在线看| 日韩一级免费在线观看| 亚洲AV成人无码一二三区在线| 精品日韩一区二区三区| 日本三日本三级少妇三级66| 亚洲无码精品在线观看| 欧美日产在线观看| 一区二区三区四区五区视频| 最新黄色网址在线观看| 欧美中文字幕一区二区三区亚洲| 久久天天狠狠| 黄色片免费观看视频| 欧美性极品xxxx做受| 欧美福利一区二区三区| 在线观看亚洲天堂| 欧美亚洲愉拍一区二区| 亚洲一区二区自拍偷拍| 国产精品毛片一区二区在线看舒淇 | 99久久精品国产导航| 欧洲亚洲免费在线|