亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當(dāng)前位置: 首頁 ? 資訊 ? 智能車 ? 正文

COLM 24 | 從正確中學(xué)習(xí)?大模型的自我糾正新視角

IP屬地 中國·北京 編輯:胡穎 機器之心Pro 時間:2024-09-25 19:46:33
AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者來自香港城市大學(xué)和華為諾亞方舟實驗室。其中,第一作者姚宇璇是香港城市大學(xué)計算機系的二年級博士生,研究方向涉及大模型的復(fù)雜推理和生成,師從宋林琦教授。吳涵,郭志江是華為諾亞方舟實驗室研究員。

大型語言模型(LLMs)雖然進展很快,很強大,但是它們?nèi)匀淮嬖跁a(chǎn)生幻覺、生成有害內(nèi)容和不遵守人類指令等問題。一種流行的解決方案就是基于,大概就是看自己輸出的結(jié)果,自己反思一下有沒有錯,如果有錯就自己改正。目前自己糾正還是比較關(guān)注于讓大模型從錯誤中進行學(xué)習(xí)。更多相關(guān)內(nèi)容可以參考這篇 TACL 的 survey [1]。

但是呢,現(xiàn)有的很多自我糾正的方法依賴于復(fù)雜的 prompt engineering,人類反饋,或外部工具,但這些方法往往比較麻煩(試 prompt),不穩(wěn)定(換了個模型 prompt 可能就要修改了),昂貴(人類反饋很貴的),增加時延(要調(diào)用不同的外部工具)。為了克服這些限制,本文提出了一種無需 prompt engineering 也無需外部反饋的方法 ——Learning from Correctness(LeCo,是的,作者們是樂高愛好者 XD),我們想倒反天罡,從正確而不是錯誤中進行學(xué)習(xí),讓自己變得更強大。

論文鏈接:https://arxiv.org/pdf/2403.19094arxiv.org/pdf/2403.19094代碼鏈接:https://github.com/starrYYxuan/LeCo

一句話總結(jié):LeCo 通過大模型自己生成的推理步驟進行自我糾正,無需人類反饋,手工提示和外部工具。其核心思想就是:模型如果知道更多的正確推理步驟,那他的搜索空間就可以壓縮,從而更有高效地找到完整的正確推理路徑。LeCo 為每個推理步驟計算置信度分數(shù),通過分數(shù)給推理步驟打分,低分的推理步被視為潛在錯誤,之前的步驟被視為正確。通過將這些正確步驟附加到輸入中,模型可以逐步接近正確答案。如下圖所示,LeCo 首先得到對當(dāng)前問題的解(左邊 output), 然后我們逐漸去收集正確的推理步驟知道得到最后正確的解。這種漸進式學(xué)習(xí)方法不僅提高了推理準確性,還減少了 tokens 消耗(窮人友好)和迭代次數(shù)(和投票,從錯誤中學(xué)習(xí)相比)。

LeCo 方法示意圖

如何找出正確的推理步驟?

一些預(yù)設(shè)知識:在生成任務(wù)中,logits 代表候選詞被選為下一個詞的對數(shù)概率。另一方面,置信度指的是模型對其預(yù)測的確定性。在推理任務(wù)中,我們提出步驟置信度來衡量模型對每個推理步驟的正確性的置信度。于是我們設(shè)計了三種基于 logits 的評分,從單步推理步和不同推理步出發(fā),全面評估每個推理步驟的置信度。

方法:為了找出大模型自己生成的正確推理步驟,本文開發(fā)了一種基于生成 logits 的高效方法來測量每個推理步驟的置信度,無需額外標注或工具。通過綜合考慮每個步驟中的平均置信度、步驟置信度差異和步驟傳遞概率,LeCo 能識別出近 65% 的錯誤步驟。具體來講,我們的置信度設(shè)計考慮了 3 個不同的角度:

單步置信度(average token score):一種簡單的方法來衡量步驟置信度是平均計算某一步中的 token 概率。這個平均值反映了模型在該步驟中推理的確定性。單步置信度定義為:

單步散度分數(shù) (step divergence score):雖然平均 token 概率看似直觀,但它可能會產(chǎn)生誤導(dǎo)。在一個步驟中,大多數(shù) token 通常是常見詞匯,具有高置信度分數(shù),但攜帶的信息很少。相反,對于推理至關(guān)重要的 token,例如數(shù)學(xué)計算,通常置信度較低。這種矛盾導(dǎo)致整個步驟的平均 token 置信度偏高。為了解決這個問題,本文提出了 Step Divergence Score。這個指標測量了步驟中標記概率的分布均勻性。理想情況下,正確的推理步驟 token 概率不僅高,而且在所有 token 之間均勻分布。為此我們定義了 token 概率的歸一化分布

和均勻分布 U 來設(shè)計:

步間轉(zhuǎn)移分數(shù) (Inter-step Transition Score) : 在步驟內(nèi)部測量之后,我們尋求量化連續(xù)步驟之間的轉(zhuǎn)換。初步實驗發(fā)現(xiàn)了兩個關(guān)鍵點:

(1)整體置信度較低的步驟傾向于在初始的幾個 tokens(通常是前三個)中具有較低的置信度,更多討論可以在附錄中找到。

(2)這些初始的幾個 tokens 也是在不同程序運行中最有可能改變的。基于這些觀察,我們建議使用步驟中的開頭的借個 tokens 概率來表示該步驟和下一個步驟之間的交叉轉(zhuǎn)換分數(shù)。換言之,轉(zhuǎn)換分數(shù):

結(jié)合以上三個分數(shù),我們可以得到針對每個推理步驟的置信分數(shù):

LeCO:從正確的推理步中學(xué)習(xí)

好了,現(xiàn)在我們已經(jīng)擁有了衡量推理步置信分數(shù)的方法,現(xiàn)在只需要迭代式地收集正確的推理步驟,優(yōu)化搜索空間去拿到最后的正確推理路徑。LeCo 分為兩個階段:

初始階段(Initial Stage):用任何 CoT 的方法生成一個初始的解即可,要求就是需要這個解是有推理步驟的。反思階段(Rethink Stage):拿到這個解之后,我們用上述方法去計算每個推理步驟。然后選擇分數(shù)最低的那個步驟作為 “犯錯的第一步”。之前的的推理步驟我們都認為是 “正確的步驟”。然后我們將正確的步驟也作為輸入給到大模型去進行推理。

LeCo 就是在推理和反思兩個階段交替進行直到達到停止的條件。我們設(shè)置的條件有兩個:1. 達到最大的迭代次數(shù);2. 連續(xù)兩次的解都是一致的。

LeCo 算法總結(jié)如下:

實驗結(jié)果

我們使用 LeCo 在推理任務(wù)上面進行了驗證,包括邏輯推理,常識推理和數(shù)學(xué)推理。對比的基線系統(tǒng)包括了也是需要多次推理的 Self-Consistency(SC [2]),Adaptive Consistency(ADPSC [3])和 Recursively Criticizes and Improves(RCI [4],從錯誤中學(xué)習(xí)):

表 1:LeCo 在邏輯,常識和數(shù)學(xué)推理上面的性能表現(xiàn)

表 2:LeCo 在需要更加復(fù)雜的推理 MATH 上的表現(xiàn)

從上面的兩個表格中我們可以看到:

LeCo 的普適性:適用于不同的模型(GPT3.5,GPT4,DeepSeek)和不同的 CoT 方法(Initial Stage 用的);LeCo 的性能提升:在不同類型的推理任務(wù)上面都有提升,越難的任務(wù),需要越多推理步驟的任務(wù)提升越多(比如 MATH);LeCo 的效率提升:如下兩個表格所示,LeCo 除了在各種任務(wù)上對性能有一定提升之外,所消耗的 token 數(shù)量更少(如:比 self-consistency 低 80%),并且所需的迭代輪數(shù)更低。

表 3:LeCo 和不同方法的 Token 消耗比較

表 4:LeCo 和不同方法的迭代次數(shù)比較

人工分析:為了進一步驗證 LeCo 是否真的能識別到推理中正確的步驟,本文人工標注了 100 題 GSM8K,找出推理過程中正確和錯誤的時間步。Exact Correct 表示 LeCo 能精確定位到第一步犯錯的步驟,Partial Correct 表示定位在 1 步的誤差范圍內(nèi),Wrong 表示定位誤差范圍大于 1 步。總體來說,LeCo 可以通過計算置信度的方式而無需外部信息較為準備地找出正確和錯誤的步驟,不過仍然存在提升空間。

表 5:不同方法計算推理步驟置信度的準確率(人工分析 100 題)

總結(jié)

1. 本文提出了一種新的多步推理范式,稱為從正確中進行學(xué)習(xí)(LeCo),通過逐步積累正確步驟接近最終答案;

2. 本文挑戰(zhàn)了高質(zhì)量反饋只能來自外部的觀點,并提出了一種僅僅使用模型自身的 confidence score 來近似每個推理步驟的正確性的方法;

3. 無論是開源和閉源模型,都可以在各種多步推理任務(wù)中從 LeCo 中獲益,同時減少 token 和迭代輪次的消耗。更令人振奮的是,和我們的題目一樣,LeCo 消除了 rethink 階段重新編寫 prompt 的需求。

參考文獻:

1.Automatically Correcting Large Language Models: Surveying the Landscape of Diverse Automated Correction Strategies. TACL 2024

2.Self-consistency improves chain of thought reasoning in language models. ICLR 2023

3.Let's sample step by step: Adaptive consistency for efficient reasoning and coding with llms.EMNLP 2023

Language models can solve computer tasks. NeurIPS 2023

免責(zé)聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

国产日产欧美一区二区三区| 中文字幕中文在线不卡住| 色噜噜狠狠一区二区三区狼国成人| 欧美黄色片免费观看| 亚洲电影在线免费观看| 18深夜在线观看免费视频| 无码人妻少妇伦在线电影| 97视频在线观看亚洲| 日韩欧美一区二区在线视频| 午夜视黄欧洲亚洲| www青青草原| 亚洲熟妇一区二区| 91黄色免费视频| 肥臀熟女一区二区三区| 丁香婷婷综合网| 色噜噜狠狠色综合欧洲selulu| 欧美一区二区在线观看视频| 国内av在线播放| 国产一二三区精品| 中文字幕一区二区三区乱码不卡| aa在线观看视频| 欧美性xxxxxxx| 自拍偷拍国产亚洲| 国产三级精品视频| 久久成人久久爱| 91丨porny丨蝌蚪视频| 男女一区二区三区| 神马影院午夜我不卡影院| 91精品国产免费久久久久久| 亚洲日本在线a| 国产情侣呻吟对白高潮| 激情综合亚洲精品| 丝袜诱惑制服诱惑色一区在线观看 | 天天插天天射天天干| 日韩福利视频| 成人黄色免费片| 97在线视频免费| 色噜噜夜夜夜综合网| 欧美激情综合五月色丁香| 久久伊人亚洲| 成人在线观看小视频| 成人免费毛片播放| 亚洲一区 视频| 性欧美8khd高清极品| 国产乱妇无码大片在线观看| 久久九九久久九九| 91在线第一页| 国产在线拍揄自揄拍| 姝姝窝人体www聚色窝| 日本道在线观看一区二区| 日本不卡久久| 久久久无码人妻精品一区| 国产视频一区二区三区四区五区| 韩国欧美国产1区| 成人久久精品人妻一区二区三区| 在线视频一区二区三区四区| 成人毛片视频免费看| 无码一区二区精品| 午夜一区二区三区四区| 国产成人小视频| 亚洲成国产人片在线观看| 亚洲欧洲高清在线| 久久久久久夜| 亚洲永久精品大片| 97精品免费视频| 我想看黄色大片| 亚洲欧美在线高清| 国产精品精品视频一区二区三区| 99视频在线视频| 久久久亚洲av波多野结衣| 噜噜噜在线视频| 日本精品人妻无码77777| 成人免费观看视频在线观看| 成人免费视频网站| 亚洲精品高清视频| 88av在线视频| 日韩高清一级片| 天天操天天综合网| 亚洲精品在线观看视频| 日本一区二区三区高清不卡 | 亚洲高清免费观看高清完整版| 亚洲精品久久久久久久蜜桃臀| 一起草在线视频| 极品美女销魂一区二区三区| 亚洲素人一区二区| |精品福利一区二区三区| 欧美日韩一区二区三区四区五区| 精品国内产的精品视频在线观看| 亚洲欧洲午夜一线一品| 国产亚洲福利一区| 亚洲精品视频三区| 九九九视频在线观看| 国产999在线| 欧美成人sm免费视频| 中文字幕在线日韩| 日本黄大片在线观看| 无码人妻精品一区二区三区蜜桃91 | 国产精品视频一二| 精品1区2区3区| 色伦专区97中文字幕| 色妹子一区二区| 国产亚洲激情在线| 网爆门在线观看| 日韩中文字幕1| 欧美一级欧美三级在线观看| 日本成人免费在线| 久久国产一区| 免费日韩一级片| 国产精品久久久久aaaa樱花| 99视频在线| 精品欧美一区二区精品少妇| 亚洲日本一区二区| 亚洲女人天堂色在线7777| bt天堂新版中文在线地址| 久久久久精彩视频| 亚洲国产欧美日韩另类综合 | 国产一级av毛片| 91精品国产综合久久精品| 147欧美人体大胆444| 综合 欧美 亚洲日本| 日韩欧美在线免费| 欧美中文字幕第一页| 亚洲一区二区三区乱码| 精产国品一区二区| 精品成人a区在线观看| 久久精品99北条麻妃| 国产成人久久精品| 老司机精品福利视频| 成人黄色大片在线免费观看| 在线免费看污网站| 久久精品官网| 久久精品国产清自在天天线| 黄色录像a级片| 蓝色福利精品导航| 国产精品乱子久久久久| 成人黄色生活片| 久久成人精品无人区| 久久五月天综合| 伊人久久一区二区三区| 亚洲成人在线免费| 日韩精品在线观看网站| 国产又粗又长又黄的视频| 国产精品乱子久久久久| 国产免费黄色av| 亚洲天堂精品在线观看| 日韩少妇高潮抽搐| 伊人伊成久久人综合网小说| 中文字幕人妻精品一区| 精品国产精品网麻豆系列| 亚洲尤物视频网| 久久久久黄色片| 欧美一区二区精品在线| 91久久精品国产91性色| 日本中文字幕影院| 日韩福利视频导航| 免费的av在线| 亚洲美女少妇撒尿| av免费网站观看| 一区二区三区成人在线视频| 久久影院电视剧免费观看| 精品一区日韩成人| 日韩福利电影在线| 精品日韩欧美| 狠狠色噜噜狠狠狠狠97| 久久精品这里有| 欧美日韩精品一区二区在线播放| 在线视频不卡一区二区| 成人美女在线观看| 国产精品333| 欧美精品一区男女天堂| 欧美怡春院一区二区三区| 一起草在线视频| 尤物yw午夜国产精品视频明星| 国产黄色录像视频| 国产亚洲美女精品久久久| 在线观看日本网站| 另类小说欧美激情| 精品视频在线观看| 一区二区三区精彩视频| 51成人做爰www免费看网站| 成人亚洲精品久久久久软件| 亚洲色成人www永久在线观看| 成av人片一区二区| 成人午夜电影免费在线观看| 强制捆绑调教一区二区| 中文字幕在线亚洲三区| 日本一区免费看| 99视频一区二区三区| 国产色视频一区二区三区qq号| 这里是久久伊人| 久久久久久久久久久网| 亚洲bt天天射| 国产又粗又猛又黄又爽| 久久精品精品电影网| 久久狠狠婷婷| 一区二区精品在线观看| 成人精品网站在线观看| 一本一本久久a久久精品综合小说 一本一本久久a久久精品牛牛影视 | 国产精品538一区二区在线| 亚洲国产婷婷香蕉久久久久久99| 日本女人一区二区三区| 国产综合18久久久久久| 中文字幕视频一区二区三区久| 日本熟妇毛耸耸xxxxxx| 日韩av免费看| 国产喷白浆一区二区三区| 中文字幕在线观看免费高清| y97精品国产97久久久久久| 久草视频中文在线| 免费国产一区| 伊人久久久久久久久久久| 欧美日韩精品在线观看| 久久综合色婷婷| 国产乱人伦精品一区二区在线观看 | 亚洲韩国在线| 91久久线看在观草草青青| 亚洲熟女www一区二区三区| 亚洲精品8mav| 色婷婷综合久久久| www.xxx亚洲| 一区二区三区.www| 97超碰在线资源| www日韩中文字幕在线看| 日韩精品一二三四| 丁香花五月激情| 亚洲一区二区蜜桃| 日韩国产高清视频在线| 国产精品热久久久久夜色精品三区| 黄色片一区二区| 一级黄色免费网站| 国产五月天婷婷| 一区视频免费观看| 手机av免费看| 亚洲色成人www永久在线观看| 俺去啦;欧美日韩| 99re热视频精品| 夜夜嗨av禁果av粉嫩avhd| 日韩欧美在线播放视频| 日韩激情av在线免费观看| 国产 日韩 欧美 精品| 国产女主播av| 亚洲国产精品中文| 精品国产网站在线观看| 黄色一级片中国| 久久久久福利视频| 成人国产精品av| 国产精品av在线播放| 国产口爆吞精一区二区| 中文国产在线观看| 韩国一区二区三区美女美女秀| 久久久最新网址| 国产99久久精品一区二区| 久久精品magnetxturnbtih| 亚洲精品第一区二区三区| 日韩欧美第二区在线观看| 日韩精品久久一区| 欧美精品久久久久久久免费观看| 欧美在线视频不卡| 久久久久亚洲av成人毛片韩| 在线观看一区二区三区视频| 亚洲欧洲一区二区福利| 国产日韩在线看片| 欧美午夜片欧美片在线观看| 国产美女www| 亚洲欧美国产中文| 人妻人人澡人人添人人爽| 91免费在线看片| 91超薄肉色丝袜交足高跟凉鞋| 欧美性xxxx69| 国产视频精品网| 亚洲国产日韩欧美在线动漫| 99精品视频在线观看| 成人av免费在线观看| www..com久久爱| 欧美日韩免费看| 九九热精品视频| 国产一线二线三线女| 三级黄色片免费看| 男人的天堂久久久| 一区二区日韩在线观看| 91在线视频在线观看| 久久久久女人精品毛片九一| 人人干在线观看| 欧美成人全部免费| 91国产精品电影| 日韩av不卡在线| 在线不卡中文字幕| 亚洲欧洲美洲综合色网| 成人18精品视频| 国产精品久久精品日日| 日本一区二区三区dvd视频在线| 国产精品久久久久影院亚瑟 | 欧美va亚洲va在线观看蝴蝶网| 欧美日韩一区在线观看| 国产亚洲激情视频在线| 欧美日韩精品久久| 国产精品第108页| 亚洲av无码国产精品久久不卡| 国产区在线观看成人精品| 色狠狠色狠狠综合| 欧美午夜精品久久久久久孕妇| 国产丝袜美腿一区二区三区| 99视频一区二区| 97精品国产97久久久久久久久久久久| 国产福利一区二区三区视频| 免费一级片91| 午夜激情小视频| 久草在线在线精品观看| 全部毛片永久免费看| 日韩一区二区三区不卡| 一区二区三区不卡视频| 成人综合在线网站| 色域天天综合网| 九九热在线精品视频| 97久久精品人搡人人玩| 日韩欧美一级精品久久| 欧美α欧美αv大片| 91wwwcom在线观看| 久操手机在线视频| 黄色一级片免费的| 久久精品免费在线| 国产xxx精品视频大全| 9i在线看片成人免费| 久久精品人人做| 亚洲精选一二三| 日本高清成人免费播放| 亚洲精品99久久久久| 亚洲一区二区三区久久 | 亚洲一级二级三级| 日韩一区二区免费视频| 在线日韩第一页| 日韩a∨精品日韩在线观看| 午夜精品一区二区三| 免费av成人在线| 欧美影片第一页| 午夜精品福利一区二区三区av | 欧美一区二区三区视频在线| 精品亚洲一区二区三区四区五区| 国产精品99导航| 无码人妻丰满熟妇区五十路百度| 99在线视频免费| 国产剧情久久久| 国产精品一区二区不卡| 欧美一级一区二区| 亚洲综合在线小说| 九九久久久久久| 99免费在线视频| 欧美写真视频网站| 亚洲精品亚洲人成人网在线播放| 在线免费看av不卡| 亚洲综合色av| 性久久久久久久久久| 不卡电影一区二区三区| 亚洲欧美国产精品久久久久久久| 精品中文字幕视频| 日韩国产一区久久| 蜜桃视频最新网址| 污污视频在线观看网站| 久久夜色精品国产欧美乱| 亚洲黄色小视频在线观看| 精品国产乱码久久久久久鸭王1| 美国十次了思思久久精品导航| 亚洲一区在线观看视频| 91免费福利视频| 2014亚洲精品| free性中国hd国语露脸| 99re在线精品| 欧美成人激情在线| 亚洲综合第一区| 亚洲精品成人免费| 五月天激情视频在线观看| 岛国av一区二区三区| 日韩欧美不卡在线| 99久久综合狠狠综合久久| 欧美日韩高清在线一区| 日本一级片免费看| 一区二区三区四区av| 91色p视频在线| 日韩av大片在线观看| 精品视频999| 男女裸体影院高潮| 日韩国产精品大片| 久久久亚洲影院| 男女高潮又爽又黄又无遮挡| 在线中文字幕网站| 欧美高清视频一二三区| 国产一区二区三区小说| 成人国产亚洲欧美成人综合网| 庆余年2免费日韩剧观看大牛| 不卡av免费在线| 92国产精品观看| 中国一级大黄大黄大色毛片| 美女视频第一区二区三区免费观看网站 | 亚洲少妇最新在线视频| 国产精品主播视频| 国产成人小视频| 欧美日韩亚洲一| 欧亚洲嫩模精品一区三区| 国产亚洲精品久久久久久无几年桃| 亚洲欧美国产va在线影院| 伊人久久成人网| 热草久综合在线| 国产成人在线播放视频| 国产亚洲精品91在线| 中文字幕a在线观看| 夜夜精品视频一区二区| 国产一区二区免费电影| 精品一区二区三区不卡| 国产在线精品日韩| 三级欧美在线一区|