亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 智能車 ? 正文

Scaling Law瓶頸,Cursor編程為什么這么強?團隊參與新研究掏出秘密武器

IP屬地 中國·北京 編輯:鄭佳 機器之心Pro 時間:2024-09-25 19:48:41

機器之心報道

編輯:Panda、佳琪

近段時間,AI 編程工具 Cursor 的風頭可說是一時無兩,其表現卓越、性能強大。近日,Cursor 一位重要研究者參與的一篇相關論文發布了,其中提出了一種方法,可通過搜索自然語言的規劃來提升 Claude 3.5 Sonnet 等 LLM 的代碼生成能力。

具體來說,他們提出的方法名為 PlanSearch(規劃搜索)。主導團隊是 Scale AI,本文一作為 Scale AI 研究者 Evan Wang。二作 Federico Cassano 現已加入如今炙手可熱的 AI 編程工具公司 Cursor。他曾參與創立了 GammaTau AI 項目,該項目的目標是實現 AI 編程的民主化。此外,他也是 BigCode 項目的活躍貢獻者,該項目負責開發用于 AI 編程的 StarCoder 系列大型語言模型。

論文標題:Planning In Natural Language Improves LLM Search For Code Generation論文地址:https://arxiv.org/pdf/2409.03733

論文開篇,該團隊提到強化學習教父 Sutton 的經典文章The Bitter Lesson(苦澀的教訓)揭示的 Scaling Law 的兩大核心原則:學習和搜索。隨著大型語言模型的迅猛發展,人們對于「學習」是否有效的疑慮已基本消除。然而,在傳統機器學習領域中表現出色的「搜索」策略,將如何拓展大模型的能力,還是個未知數。

目前阻礙模型應用「搜索」的主要難題是模型給出的答案過于雷同,缺乏多樣性。這可能是由于在預訓練的基礎上,模型會在特定的數據集上進行進一步的訓練,以適應特定的應用場景或任務所導致的。

經過大量實證研究證明,許多大語言模型往往會被優化,以產生一個正確的答案。比如下圖中所示,DeepSeek-Coder-V2-Lite-base 的表現不如其基礎模型,但隨著回答的多樣性的減少,情況發生了逆轉。多個模型都存在這種現象:經過特別指令調整的模型在只生成一個答案的情況下(pass@1)通常比基礎模型表現得好很多,但當需要生成多個答案時,這種優勢就不明顯了 —— 在某些情況下,甚至完全相反。

模型在生成答案時缺乏多樣性,這對于搜索的效果非常不利。特別是在極端情況,比如采用「貪心解碼」,模型給出的答案會非常相似,因為它們是從模型中重復抽取的。這種情況下,即使模型花費更多推理時間,也難以獲得更好的搜索結果。

通行的大模型排行榜,例如例如 LMSYS Chatbot Arena、LiveCodeBench、OpenLLMLeaderboard,很難反應模型在回答多樣性方面的不足。這些排行榜主要關注模型在單一樣本上的通過率,沒有考慮到模型在更廣泛場景下的表現。由于模型需要很快地響應用戶的需求,單一樣本的回答質量是衡量一個聊天機器人的關鍵指標,但這一指標并不足以全面評估模型在允許更充裕推理時間時的綜合性能。

針對以上問題,研究人員對如何在大語言模型推理過程中提高回答的多樣性進行了探索。對此,他們提出了假設,想讓模型輸出的答案更加豐富,需要在自然語言的概念或想法的空間內進行搜索。

為了驗證這個假設,研究人員進行了一系列實驗。首先,研究人員發現,如果給模型一些簡單的草圖(這些草圖是從已經能解決問題的代碼中「回譯」而來),模型就能根據這些草圖寫出正確的最終程序。其次,研究人員還發現,如果讓模型在嘗試解決問題之前,先在 LiveCodeBench 上想出一些點子(這個過程叫做 IdeaSearch / 思路搜索),然后看看模型能不能用這些點子解決問題。

結果發現,模型要么完全解決不了問題(準確度為 0%),要么就能完美解決問題(準確度為 100%)。這表明當模型嘗試解決一個問題時,成功與否主要取決于它最初的那個想法(草圖)對不對。

根據這兩個實驗的結果,研究人員認為一種提升 LLM 代碼搜索能力的自然方法是:搜索正確的思路,然后實現它!

于是,規劃搜索(PlanSearch)方法誕生了。

不同于之前的搜索方法(通常是搜索單個 token、代碼行甚至整個程序)不一樣,規劃搜索是搜索解決當前問題的可能規劃。這里,規劃(plan)的定義是:有助于解決某個特定問題的高層級觀察和草案的集合。

為了生成新規劃,規劃搜索會生成大量有關該問題的觀察,然后再將這些觀察組合成用于解決問題的候選規劃。

這個操作需要對生成的觀察的每個可能子集都執行,以最大化地鼓勵在思路空間中進行探索,之后再將結果轉譯成最終的代碼解決方案。

該團隊的實驗發現,在推理時有效使用計算方面,規劃搜索方法優于標準的重復采樣方法以及直接搜索思路的方法。

方法

在這項研究中,該團隊探索了多種不同方法,包括重復采樣(Repeated Sampling)、思路搜索(IdeaSearch)以及新提出的規劃搜索(PlanSearch)。其中前兩種方法顧名思義,比較直觀,這里我們重點關注新提出的規劃搜索。

該團隊觀察到,雖然重復采樣和思路搜索能成功地提升基準評測的結果。但在很多案例中,多次提示(pass@k)(即使在溫度設置很高)只會導致輸出代碼發生很小的變化,這些變化只會改變一些小方面,但無法改善思路中的缺陷。

下面來看具體的規劃搜索過程:

1. 通過提示來獲取觀察

首先假設有一個問題陳述 P,通過向 LLM 發送提示詞來獲取對該問題的「觀察」/ 提示。這里將這些觀察記為 O^1_i,其中 i ∈ {1, . . . , n_1};這是因為它們是一階觀察。通常而言,n_1 的數量級在 3 到 6 之間。具體數量取決于 LLM 輸出。為了利用這些觀察結果來啟發未來的思路,該團隊創建了 O^1_i 的集合 S^1 的且大小至多為 2 的所有子集。其中每個子集都是觀察結果的一個組合。這里將每個子集記為 C^1_i,其中 i ∈ {1, . . . , l_1},而

2. 推導新的觀察

這樣一來,所有觀察結果的集合都可以定義為深度為 1 的有向樹,其中根節點為 P,并且每個 C^1_i 都有一條從 P 指向 C^1_i 的邊。

然后,在每個葉節點 C^1_i 上重復上一步流程,從而生成一個二階觀察集 S^2。為了得到二階觀察,該團隊的做法是在給模型的提示詞中包含原始問題 P 和 C^1_i 中包含的所有觀察 —— 這些觀察被構造為解決 P 所必需的原始觀察。然后再提示 LLM,讓其使用 / 合并在 C^1_i 中找到的觀察來得出新的觀察。

這個過程可以繼續延伸,但由于計算限制,這里在深度為 2 時對該樹進行了截斷操作。

3. 將觀察變成代碼

在得到了觀察之后,必須先將它們實現成具體思路,然后再將它們轉譯成代碼。

具體來說,對于每個葉節點,將所有觀察以及原始問題 P 放入提示詞來調用 LLM,以便生成問題 P 的自然語言解決方案。為了提升多樣性,對于每個生成的思路,該團隊通過假設該思路是錯誤的來生成一個額外的思路,并要求 LLM 給出批評 / 反饋,從而將提議的思路翻倍了。

然后,再將這些自然語言解決方案轉譯成偽代碼;再把這些偽代碼轉譯成真正的 Python 代碼。

實驗

實驗采用了三個評估基準:MBPP+、Humaneval+ 和 LiveCodeBench。參數設置等細節請參閱原論文。

至于結果,該團隊報告了三種方法的結果,包括重復采樣、思路搜索和規劃搜索,見表 1、圖 1 和圖 5。

可以看到,規劃搜索和思路搜索的表現明顯優于基礎的采樣方法,其中規劃搜索方法在所有實驗方法和模型上都取得了最佳分數。

圖 7、8、9 展示了在每個數據集上的詳細 pass@k 結果。

可以看到,在 Claude 3.5 Sonnet 上使用規劃搜索方法時,在 LiveCodeBench 基準上得到了當前最佳的 pass@200 性能:77.0%。該表現優于不使用搜索時獲得的最佳分數(pass@1 = 41.4%)以及標準的 best-of-n 采樣方法的分數(pass@200 = 60.6%)。

此外,使用小型模型(GPT-4o-mini)執行規劃搜索時,僅僅 4 次嘗試后就能勝過未使用搜索增強的大型模型。這佐證了近期一些使用小模型進行搜索的有效性的研究成果。

在另外兩個編程基準 Humaneval+ 和 MBPP+ 上,規劃搜索也能帶來類似的提升。

通過研究特定模型的差異,該團隊注意到 pass@k 曲線所呈現的趨勢在所有模型中并不統一;事實上,每條曲線看起都不一樣。該團隊猜想部分原因是思路多樣性的變化。

該團隊還得到了一個有趣的觀察結果:規劃搜索并不利于某些模型的 pass@1 指標,其中最明顯的是 Sonnet 3.5 在 LiveCodeBench 上的表現 —— 這是實驗中表現最好的組合。

該團隊基于直覺給出了解釋:提升思路多樣性可能會降低生成任何特定思路的概率,同時增加在給定池中至少有一個正確思路的幾率。因此,pass@1 可能會略低于平常,但也正是由于這個原因,pass@k 指標可能會優于缺乏多樣性的思路池。

另外,表 1 和圖 1 給出了在嘗試 / 完成上經過歸一化的主要結果。其中針對每個問題,每種搜索方法都可以嘗試 k 次。

最后,該團隊還發現,在思路空間中觀察到的多樣性可用于預測搜索性能,這可通過模型 / 方法的 pass@1 與其 pass@200 之間的相對改進計算得到,如圖 6 所示。

雖然熵是最常見的多樣性度量是,但由于種種原因,熵不足以精確衡量 LLM 的多樣性。

因此,該團隊測量多樣性的做法是在所有生成的程序上使用簡單的配對策略,將其置于思路空間中進行計算。具體算法請訪問原論文。

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

国产精品一区二区三区观看| 非洲一级黄色片| 久久精品99国产精品| 欧美激情videoshd| 国产视频一区二区在线| 熟女视频一区二区三区| 亚洲毛茸茸少妇高潮呻吟| 久久综合色播五月| 一级aaaa毛片| 折磨小男生性器羞耻的故事| 欧美激情视频网址| fc2成人免费人成在线观看播放| 又大又长粗又爽又黄少妇视频| 国产亚洲欧美一区| 麻豆一区产品精品蜜桃的特点| 91在线播放国产| 久久成人人人人精品欧| 激情丁香综合五月| 婷婷在线精品视频| 日韩不卡视频一区二区| 久久影院午夜片一区| 天天干天天操天天爱| 亚洲午夜久久久久久久久红桃| 中文字幕av一区二区三区人妻少妇| 亚洲av午夜精品一区二区三区| 免费观看亚洲视频| 综合一区中文字幕| 亚洲欧美日韩一区二区三区在线| 欧美一级特黄aaaaaa大片在线观看| 国产精品wwwww| 高清不卡日本v二区在线| 成人国产亚洲欧美成人综合网 | 国产日韩精品一区二区三区| www.com日本| 国模精品娜娜一二三区| 国产一区二区三区四区福利| 欧美大片xxxx| 国模杨依粉嫩蝴蝶150p| 色一情一乱一乱一区91| 欧美在线一区二区三区四区| 国产综合欧美在线看| 999在线观看免费大全电视剧| 色小说视频一区| 亚洲一级二级三级| 成人小说亚洲一区二区三区| 中文字幕avav| 九色综合日本| 婷婷综合在线观看| 久久国产精品无码网站| 久久99国产乱子伦精品免费| 中文字幕1区2区3区| 911福利视频| 欧美精品丝袜中出| 亚洲国产精品成人综合色在线婷婷| 俄罗斯嫩小性bbwbbw| 亚洲精品字幕在线| 蜜桃视频在线观看一区| 国产精品一二三在| 东方aⅴ免费观看久久av| 午夜久久久久久久久久| 2021亚洲天堂| 日本黄大片在线观看| 一本一本久久a久久精品综合麻豆 一本一道波多野结衣一区二区 | www.com.av| 国产精品第100页| 欧美精品生活片| 欧美一a一片一级一片| 国产ts人妖一区二区| 99久久久国产精品无码网爆| 人妻中文字幕一区| 91av在线免费视频| 秋霞电影网一区二区| 国产高清精品网站| 欧美日韩免费做爰视频| 国产精品综合久久久久久| 一本色道久久88精品综合| 一区二区欧美国产| 99久久精品国产观看| 日本熟妇成熟毛茸茸| 日本精品免费视频| 91青青草免费观看| 四虎永久在线精品免费一区二区| 全球成人中文在线| 久久久噜噜噜久久久| 久久久久久伊人| 久久亚洲精品小早川怜子| 日韩va亚洲va欧美va久久| √资源天堂中文在线| 中文字幕一区二区三区人妻不卡| 国产伦精品一区二区三区在线| 97在线视频免费| 久久久精品日韩欧美| 日本三级2019| 国产伦精品一区二区三区视频女| 日韩三级视频在线| 99精品视频在线播放观看| 国产精品18久久久久| 风流少妇一区二区三区91| 精品成在人线av无码免费看| 夜夜爽www精品| 伊人av成人| 亚洲日本精品国产第一区| 国产一区二区三区18| 国产精品毛片高清在线完整版| 国产成人无码一区二区在线播放| 中文字幕求饶的少妇| 亚洲国产日韩欧美在线观看| 黄网站色视频免费观看| 亚州精品天堂中文字幕| 在线精品视频小说1| 亚洲色图欧美自拍| 国产一区二区三区免费不卡| 国产精品自拍偷拍| 日韩高清av电影| 香蕉在线观看视频| 91在线你懂的| 26uuu另类欧美亚洲曰本| 欧美性猛交xxxx黑人| 精品偷拍各种wc美女嘘嘘| 欧美交受高潮1| 国产精品专区h在线观看| 欧美日韩精品久久| av磁力番号网| 亚洲一区二区三区观看| 国产毛片一区二区三区va在线| 精品视频高清无人区区二区三区| 在线观看视频欧美| 囯产精品久久久久久| 任你躁av一区二区三区| aa日韩免费精品视频一| 亚洲成人网在线观看| 天美一区二区三区| 草草草在线视频| 国产精品秘入口18禁麻豆免会员| 日本一区二区三区www| 99久久精品国产一区色| 国产无套粉嫩白浆内谢的出处| 在线视频欧美日韩| 成人欧美一区二区三区视频网页| 一级爱爱免费视频| 337p日本欧洲亚洲大胆张筱雨 | 好吊视频一区二区三区| 初高中福利视频网站| 精品久久蜜桃| 影音先锋日韩有码| 亚洲欧美日韩国产一区二区三区| 亚洲av无码国产精品永久一区| 日本一区二区在线免费观看| 日本午夜精品一区二区| 久久亚洲国产精品| 高跟丝袜一区二区三区| 国产中文一区二区三区| 黄色小说在线观看视频| 日本va中文字幕| 成人精品水蜜桃| 亚洲图片制服诱惑| 亚洲综合激情另类小说区| 日韩av在线播放中文字幕| 日韩黄色免费观看| 污污的网站18| 久久久久久九九九九| 另类少妇人与禽zozz0性伦| 欧美日韩精品二区| 国产又黄又大久久| 天天射天天干天天| 亚洲最大天堂网| 久久99九九| 欧美劲爆第一页| 欧美日韩视频一区二区| 91亚洲精品久久久蜜桃网站| 国产精品久久婷婷| 日本少妇毛茸茸| 免费特级黄色片| 91精品国产自产在线| 亚洲欧美综合图区| 狠狠色噜噜狠狠狠狠97| 丁香六月久久综合狠狠色| 中国一级特黄视频| 中文字幕在线观看免费高清| www.爱色av.com| 精品一区二区不卡| 91国产一区在线| 亚洲成人久久一区| 亚洲福利一区二区| av资源网一区| 色噜噜一区二区三区| 国产一级视频在线播放| 又色又爽又黄18网站| 国产毛片久久久久久国产毛片| 亚洲精品免费网站| 欧美高清一级大片| 亚洲精品动漫100p| 黑人狂躁日本妞一区二区三区 | 极品尤物一区二区| 国产一区二区在线免费播放| 日韩精品国内| 成人性生交大片免费看视频直播 | 国产三级一区二区| 美女视频黄免费的久久| 夜夜爽8888| 久久免费视频播放| 影音先锋人妻啪啪av资源网站| 免费观看美女裸体网站| 免费国产一区二区| 国产一区在线播放| 久久久亚洲国产| 精品在线欧美视频| 欧美欧美午夜aⅴ在线观看| 亚洲精品高清在线| 97精品久久久午夜一区二区三区| 日日摸夜夜添夜夜添精品视频| 国产偷人爽久久久久久老妇app| 99热6这里只有精品| 国产精品91av| 欧美伦理片在线看| 成年人网站国产| 神马欧美一区二区| 高清国产在线一区| 国产精品视频自拍| 97视频在线免费观看| 中文字幕日韩综合av| 亚洲国产精品va| 欧美另类变人与禽xxxxx| 婷婷亚洲久悠悠色悠在线播放| 欧美国产激情一区二区三区蜜月| 成人黄色在线看| 精品一区二区三区的国产在线播放| 成人毛片在线免费观看| 中文字幕+乱码+中文乱码91| 亚洲精品午夜久久久久久久| 久艹在线观看视频| 人与嘼交av免费| 亚洲精品乱码久久久久久不卡| 亚洲欧美激情一区二区三区| 小明看看成人免费视频| 亚洲成人av免费看| 日韩国产一级片| 国产一线二线三线女| 黄色www在线观看| 亚洲蜜桃在线| 水蜜桃亚洲精品| 麻豆亚洲一区| 91文字幕巨乱亚洲香蕉| 亚洲一区二区三区乱码aⅴ| 国产在线a不卡| 国产美女精品视频免费观看| 日韩免费av片在线观看| 国产99久久精品一区二区永久免费 | 亚洲自拍偷拍区| 91久久精品国产91久久性色| 国产欧美一区二区三区在线| 国产欧美日韩免费| 成人激情av在线| 亚洲自拍偷拍区| 99在线国产| 国产精品推荐精品| 精品久久sese| 欧美不卡在线一区二区三区| 欧美精品国产精品久久久 | 亚洲成成品网站| 亚洲国产精品va在线| 日韩乱码在线视频| 亚洲天堂av综合网| 久久精品国亚洲| 欧美极品欧美精品欧美视频| 国语自产偷拍精品视频偷 | 国产喷水福利在线视频| 亚洲av无码国产综合专区| 日本黄色一区二区三区| 日产国产欧美视频一区精品| 韩国成人福利片在线播放| 国产成人午夜99999| www.性欧美| 中文字幕欧美日韩一区| 亚洲制服丝袜av| 色婷婷久久久久swag精品| 欧美精品99久久久**| 亚洲国产成人91精品| 一区二区三区天堂av| 欧美俄罗斯乱妇| 国产美女精品视频免费观看| 国新精品乱码一区二区三区18| 亚洲高清资源综合久久精品| 国产精品久久久久久久久电影网| aaaaaa亚洲| 精品人妻一区二区乱码| av男人的天堂av| 国产乡下妇女做爰视频| 亚洲天天综合网| 日韩精品一级二级| 99国产精品国产精品毛片| 亚洲乱码日产精品bd | 色综合伊人色综合网| 国内精品久久久久影院 日本资源 国内精品久久久久伊人av | 5566中文字幕一区二区| 五月天色一区| 丰满人妻中伦妇伦精品app| 污视频网站观看| 日本丰满少妇裸体自慰| 99久久久无码国产精品衣服| 国产成人无码一区二区三区在线| 欧美三级午夜理伦| 国模无码一区二区三区| 国产成人自拍在线| 欧美国产精品一区二区三区| 国产三级自拍视频| 精品蜜桃传媒| 亚洲爱情岛论坛永久| 久久久精品99| 亚洲在线精品视频| 日韩不卡一二三区| 国产色产综合色产在线视频| 午夜在线电影亚洲一区| 精品免费国产一区二区三区四区| 色噜噜国产精品视频一区二区| 欧美性受xxxx黑人猛交| 国产综合欧美在线看| 波多野结衣综合网| 成人免费无码大片a毛片| 国产第一页第二页| 色综合免费视频| 成人禁用看黄a在线| 国产又黄又嫩又滑又白| 亚洲日本aⅴ片在线观看香蕉| 九九九久久久精品| 国产天堂亚洲国产碰碰| 日本韩国欧美国产| 亚洲三级黄色在线观看| 日韩免费精品视频| 91国偷自产一区二区开放时间| 日本一区二区视频在线播放| 5566成人精品视频免费| 成人福利视频在线| 欧美日韩黄色一级片| 欧美日韩午夜在线视频| 依依成人精品视频| 日韩一级免费一区| 97久久国产精品| 亚洲a∨一区二区三区| 免费成人黄色大片| 国产一级免费av| 久久久999| 最新国产成人在线观看| 日韩午夜在线观看| 国产精品高潮呻吟视频| 欧美一级黄色录像片| 国内精品卡一卡二卡三| 国产麻豆精品一区| 久久只精品国产| 欧美多人猛交狂配| 黄色成人在线看| 狠狠人妻久久久久久综合蜜桃| 亚洲一二区视频| 福利电影一区二区| 精品美女久久久久久免费| 日韩视频免费中文字幕| 痴汉一区二区三区| 潘金莲激情呻吟欲求不满视频| 国产一级做a爰片在线看免费| 男人的j进女人的j一区| 亚洲国产视频直播| 免费不卡欧美自拍视频| 日韩久久在线| 丰满少妇一区二区三区| 亚洲春色一区二区三区| 自拍偷拍亚洲综合| 中文字幕久热精品在线视频 | 日韩精品xxxx| 精品国产乱码久久久久久鸭王1| 免费久久精品视频| 中文字幕亚洲一区二区av在线| 91精品国产综合久久精品性色| 91av视频在线播放| 成人在线观看www| 亚洲天堂网av在线| 久久精品国产亚洲aⅴ| 91福利精品视频| 国产精品美女午夜av| 亚洲中文字幕无码不卡电影| 香蕉视频一区二区| 99精品黄色片免费大全| 亚洲精品动漫久久久久| 激情小说网站亚洲综合网| 欧美午夜精品一区二区| 五月天婷婷激情网| 色88888久久久久久影院按摩| 2019中文字幕在线| 韩国日本在线视频| 国产一级淫片a视频免费观看| 久久青草欧美一区二区三区| 亚洲天堂成人在线| 正在播放一区| 久久久久久久久久91| 97精品视频在线观看自产线路二| 亚洲新声在线观看| 正在播放91九色| 久久精品性爱视频| 国产色91在线| 欧美成人精品xxx| av女优在线播放| 精产国品一区二区| 一区二区三区色| 欧美在线免费视频| 色一情一区二区| www香蕉视频| 91激情在线视频| 91嫩草国产在线观看| 加勒比综合在线| 国产激情视频一区二区三区欧美 | 日韩免费视频一区二区|