亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

手術刀式去噪突破LLM能力上限,從頭預訓練模型下游任務提高7.2%

IP屬地 中國·北京 編輯:趙云飛 量子位 時間:2025-07-21 16:28:55

RefineX團隊 投稿
量子位 | 公眾號 QbitAI

在噪聲污染嚴重影響預訓練數據的質量時,如何能夠高效且精細地精煉數據?

中科院計算所與阿里Qwen等團隊聯合提出RefineX,一個通過程序化編輯任務實現大規模、精準預訓練數據精煉的新框架。

其核心優勢在于:將專家指導的高質量端到端優化結果,蒸餾為極簡的基于編輯操作的刪除程序



通過這一高精度蒸餾流程,可以訓練出高效可靠的優化模型(refine model),系統地優化語料中的每個實例。

在高效精煉數據的同時,可靠地保留原始文本的多樣性和自然性。

用RefineX凈化后的20B token數據訓練750M模型時,其在常識推理、科學問答等10項任務的平均得分達到44.7,較原始數據提升7.2%



大模型的預訓練數據

預訓練數據的質量直接決定了模型的知識深度與推理能力上限。

當互聯網成為海量訓練數據的來源,噪聲污染也隨之而來——植入的廣告、破碎的HTML標簽、無意義的亂碼等,不僅降低數據效用,更可能引發模型幻覺。

然而,大規模的去除這些噪聲來提升預訓練數據的質量是十分困難的,因為同時要兼顧兩個要素:

高效:由于數據規模龐大,精煉必須能夠高效低成本的進行可靠:精煉應該最大化的保留有價值信息,并不引入額外的模型或人工偏好而破壞原始數據的本質。

傳統數據精煉方案主要集中于規則過濾端到端重寫。但是,規則過濾(如C4/Gopher)只能文檔級粗篩選擇,誤傷高價值內容,且無法做到字符級的精準修正;端到端重寫盡管重寫質量高,但推理成本極高,無法應用于大規模數據。

更危險的是,端到端重寫過程常擅自修改術語與句式從而引入模型偏好的不可控性,如:

原始: “Climate change[廣告] impacts theenvironment”
重寫: “Climate change impactsecosystems” # 篡改關鍵術語

而RefineX框架受ProX等新興工作的啟發,選擇了一條新的去噪路徑:



上圖展示了基于程序的精煉流程,以及ProX和RefineX中精煉模型的訓練數據構建比較。

ProX的限制在于直接訓練來自專家輸出的噪聲精煉程序,復雜的prompt組合極大增加了這項任務的生成難度,從而降低蒸餾數據質量。

而RefineX在蒸餾數據的處理上進行了創新,將蒸餾數據的構建結構分為兩個明確的階段:首先執行端到端精煉,然后通過將精煉后的文本與原始文本進行比較來生成更可靠的監督程序。

這個兩階段過程產生了顯著更可靠的監督,有效消除了生成過程中引入的過度編輯風險,最終生成一個更有效且更魯棒的精煉模型。

高效可靠的規模化精煉



上圖展示了RefineX的核心工作流程。

RefineX的目標是降低專家模型直接生成用于蒸餾的精煉程序難度,同時盡可能保留端到端輸出中的有效精煉操作。

為實現這兩個目標,RefineX首先在精心設計的指令下提示專家模型生成高質量的精煉文本。然后,將精煉文本與原始輸入進行比較,基于最小編輯距離提取可靠的刪除操作序列。

這些操作被轉換為預定義的程序函數集,作為可信的監督信息來訓練緊湊的精煉模型。

訓練完成后,模型通過推理生成可靠的精煉程序,隨后執行這些程序以高效地在語料庫中執行細粒度精煉。



為徹底規避模型偏好帶來的新增內容或者過度修改的風險,僅保留精煉過程中的刪除操作,RefineX限制程序函數為刪行、刪字符、保留全部。上面是具體的函數定義。

“只刪不改”可以很好得保護原始文本,使拼寫偏差等非關鍵缺陷得以保留——它們將在預訓練中被數十萬億token自然中和,而不會污染數據的多樣性本質。

另外,RefineX使用最小編輯距離算法來捕獲原文本和端到端精煉后文本的差異,并過濾非法的插入和替換操作以及低質量數據,將可靠的刪除操作與預定義好的函數對齊,和原文本組成文本-程序對用于優化模型的訓練。

RefineX使用動態分塊機制來保持長上下文的內容捕獲,提升模型的長上下文處理能力。

論文使用Qwen2.5-72B-Instruct模型作為專家模型進行端到端精煉,消耗萬卡小時來處理得到大約200萬個高質量蒸餾樣本,用于訓練0.6B的Qwen-3-base模型作為優化模型。

較小的參數量可以實現較高的推理速度保證精煉的高效性,嚴謹的蒸餾數據處理方法保證了優化模型的可靠性。

從頭預訓練實驗

為了評估優化數據對模型性能的影響,RefinX團隊使用每種方法優化后的語料庫,從頭開始預訓練不同規模的LLMs,并在下游任務中評估它們。





結果顯示,盡管在不同任務中表現最佳的變體可能來自不同的數據源,RefineX在每個單獨的任務上都取得了最佳結果。

當用RefineX凈化后的20Btoken數據訓練750M模型時,其在常識推理、科學問答等10項任務的平均得分達到44.7,比原始數據提高了+7.2%,比Comb提高了+5.9%,甚至比最強的先前細粒度改進方法Prox-C還要高+2.6%。

在數據效率的改善上,模型使用10B凈化token的表現超越其使用20B傳統過濾數據的性能,表明RefineX可以有效地通過刪除垃圾文本降低訓練單文本的token開銷,從而在訓練token總數限制下讓模型預訓練考慮更加多樣的文本。



無論是對原始數據進行改進還是對先前過濾的數據集進行改進,使用RefineX訓練的模型始終在平均得分上獲得最高分,并贏得最多任務。

有效提升文本質量

論文使用文本質量打分器DataMan來對收集的混亂的文本數據進行預分類,并觀察精煉前后的質量變化。





可以看到,在文本質量層面,RefineX對低質內容的改善率高達42.2%,且嚴格保持“零新增詞匯”,杜絕了任何幻覺風險。而端到端方案雖提升率更高,卻以每千token新增15個外部詞匯為代價,埋下了語義篡改的隱患。

RefineX提供了一個可靠又高效的大規模預訓練數據細化的新范式。真正的數據凈化不是重塑文本,而是以最小干預剝離噪聲,讓知識的原初脈絡自由呼吸。

arxiv:https://arxiv.org/abs/2507.03253
huggingface:https://huggingface.co/papers/2507.03253
github:https://github.com/byronBBL/RefineX

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

国产熟女高潮一区二区三区| 日韩一区二区在线视频| 欧美二区在线视频| 国产伦精品一区二区三区在线观看 | 久久久精品在线观看| 麻豆精品免费视频| 欧美性生交大片免网| 国产精品久久国产| 国产精品99精品久久免费| 成人免费福利视频| 在线不卡免费视频| www.日韩av.com| 国产一二三av| 亚洲国产91色在线| 久久久综合久久久| 亚洲一区999| 国产精品一区二区入口九绯色| 黄色91在线观看| 成人亚洲视频在线观看| 亚洲精品高清在线| 亚洲精品国产成人av在线| 91免费国产在线观看| 日本欧美精品在线| 日韩福利在线| 国产高清精品久久久久| 六月婷婷久久| 捆绑调教美女网站视频一区| 国产私拍一区| 亚洲成人中文字幕在线| 日韩免费观看av| 一级成人黄色片| 亚洲乱码一区二区| 国内精品国产成人国产三级| www成人免费| 欧美二区三区91| 国产99对白在线播放| 欧美国产日韩在线| 影音先锋亚洲天堂| 欧美激情女人20p| 国产一级片免费在线观看| 久久久亚洲天堂| 日韩成人av影院| 午夜精品久久一牛影视| 538国产视频| 亚洲第一av在线| 中文字幕91爱爱| www.成人av| 综合欧美一区二区三区| 亚洲熟妇无码av| 性日韩欧美在线视频| 狠狠色丁香久久婷婷综合_中| 亚洲精品视频一区二区三区| 蜜臀av一区二区在线免费观看| 50路60路老熟妇啪啪| 日韩一区二区在线播放| 亚洲欧美高清视频| 国产经典一区二区三区| av成人免费在线观看| 国产尤物av一区二区三区| 亚洲日本乱码在线观看| 在线观看国产网站| 蜜臀av在线播放一区二区三区| 久久精品国产精品青草色艺| 成人精品高清在线| 131美女爱做视频| 色嗨嗨av一区二区三区| www.中文字幕av| 最近中文字幕日韩精品 | 欧美一级免费视频| 天天摸天天干天天操| 蜜桃传媒视频麻豆一区 | 99re热视频| 国产精品久久久久久久美男| 国模娜娜一区二区三区| 91精品国产毛片武则天| 亚洲一区二区精品视频| 青青草视频成人| 中文字幕久精品免费视频| 国产乱淫a∨片免费视频| 国产精品乱子乱xxxx| 欧美国产一区在线| 成人不卡免费视频| 精品国产一区二区国模嫣然| 日本a级c片免费看三区| 91视频婷婷| 中文字幕乱码日本亚洲一区二区| 国产精成人品免费观看| 久久国产精品久久久| 性xxxx视频| 日韩欧美一级在线| 精品日韩av一区二区| 亚洲精品成人电影| 亚洲 国产 欧美一区| 激情成人中文字幕| 国产黄色片在线免费观看| 日韩免费在线视频| 国产欧美一区在线| 中文字幕18页| 欧美成人小视频| 国产麻豆视频精品| 亚洲第一色av| 色中色综合影院手机版在线观看| 美女脱光内衣内裤视频久久网站| 久久久久久久久久久视频| 欧美成人精品3d动漫h| 国产精品一区二区免费视频| 欧美日韩中文国产一区发布| 亚洲午夜三级在线| 久草视频中文在线| 亚洲综合国产精品| 亚洲自拍偷拍欧美| 久久久美女视频| 国产精品一 二 三| 五月天一区二区三区| 日韩欧美一区二区一幕| 久久大片网站| 在线观看亚洲成人| 一级黄色大片免费观看| 激情五月五月婷婷| 日韩精品免费在线观看| 丝袜美腿亚洲色图| 自拍偷拍一区二区三区四区| 欧美日本黄视频| 97精品电影院| 国产精品美女高潮无套| 91免费在线视频| 精品国产91久久久| 一区二区视频免费观看| 性生活免费观看视频| 欧美成人国产一区二区| 丝袜美腿高跟呻吟高潮一区| 国模私拍视频在线观看| 国外成人在线直播| 一区二区三区在线播| 一区二区三区免费高清视频 | 亚洲一区二三| 日韩一区二区影院| 日韩高清一区在线| 在线成人免费av| 日韩免费在线观看视频| 亚洲素人一区二区| 奇米影视第四色777| 异国色恋浪漫潭| 最新69国产成人精品视频免费| 粉嫩av亚洲一区二区图片| 中文字幕在线1| 99porn视频在线| 欧美亚洲国产一区二区三区va| 亚洲精品18p| 精品人妻一区二区三区免费| 国产精品高潮视频| 福利精品视频在线| 五月婷婷狠狠干| 在线观看一区二区三区视频| 国产精品7m视频| 欧美日韩性视频| 香蕉视频成人在线| 污污污www精品国产网站| 鬼打鬼之黄金道士1992林正英| 欧美日韩黄色一区二区| 国产自产高清不卡| 国产第一页精品| 夜夜爽99久久国产综合精品女不卡 | 久热精品视频在线观看| 国产精品久久久久久久岛一牛影视 | www.日本在线视频| 欧美成人手机在线| 一区二区三区日韩| 亚洲男女视频在线观看| 国产69视频在线观看| 国产精品一区二区av| 日韩精品视频在线播放| 中文字幕第一区第二区| 亚洲一级片免费看| 天美一区二区三区| 国产欧美一区二区在线播放| 日韩精品福利在线| 国产精品美女久久久久久久久久久| 99久久精品国产色欲| wwwxxxx在线观看| 精品国产免费人成电影在线观...| 精品亚洲一区二区三区| 国产精品无码永久免费888| 91中文字幕在线播放| 一本加勒比北条麻妃| 色噜噜狠狠一区二区三区| 久久精品在线视频| 欧美日韩免费区域视频在线观看| 丝袜美腿高跟呻吟高潮一区| 久久99久久久| 国产三级三级三级看三级| 亚洲xxxxx性| 亚洲无亚洲人成网站77777| 亚洲乱码中文字幕| 免费高清不卡av| 国产成人在线免费视频| 在线视频 日韩| 一区二区三区av在线| 国产999精品| 国产视频亚洲精品| 有坂深雪av一区二区精品| 蜜桃伊人久久| wwwwww在线观看| 国产精品99精品无码视亚| 先锋影音日韩| 日本精品一区二区三区在线| 欧美麻豆精品久久久久久| 成+人+亚洲+综合天堂| 一区二区三区免费在线视频| 波多野结衣先锋影音| 吴梦梦av在线| 日本久久久久久久久久久| 欧美肥妇毛茸茸| 亚洲色欲色欲www| 亚洲三级中文字幕| 亚洲国产综合久久| 中文字幕一二三| 日本三级福利片| 日本精品免费观看| 精品福利av导航| 亚洲精品伦理在线| 懂色中文一区二区在线播放| 伊人精品一区二区三区| 女教师淫辱の教室蜜臀av软件| 韩国中文字幕av| 日韩一区国产在线观看| 日韩av免费在线看| 亚洲一级黄色片| 欧洲一区在线电影| 久久久久国产免费免费| 久久青草久久| 国产污污视频在线观看| 欧美激情一区二区三区p站| 污污污污污污www网站免费| 91亚洲国产精品| 国内精品久久久| 亚洲成人aaa| 精品日韩中文字幕| 欧美激情一区不卡| 激情五月婷婷综合| 亚洲经典一区二区三区| 天天操天天干视频| 国产极品视频在线观看| www.cao超碰| 一道本在线观看视频| 国产 高清 精品 在线 a | 91精品国产综合久久香蕉922| 久久精品久久久久久国产 免费| 欧美videofree性高清杂交| 亚洲成人久久影院| 99久久婷婷国产综合精品| 美女诱惑一区| 亚洲无码精品在线观看| 国产中文字字幕乱码无限| 极品蜜桃臀肥臀-x88av| 91精产国品一二三| 在线视频日韩一区 | 5858s免费视频成人| 午夜欧美一区二区三区在线播放| 国产欧美日韩激情| 国产精品一区二区三区四区| 国产99久久久久久免费看农村| 成人免费视频视频在线观看免费| av一本久道久久综合久久鬼色| 成人av在线资源| 成人午夜看片网址| 99久久夜色精品国产网站| 激情久久久久久久久久久久久久久久| 日韩在线一区二区三区| 日本特黄久久久高潮| 奇米影视在线99精品| 精品在线一区二区三区| 国产精品系列在线观看| 国产麻豆成人传媒免费观看| 懂色av一区二区在线播放| 9久草视频在线视频精品| 久久久亚洲国产美女国产盗摄| 亚洲一区二区五区| 国产黄人亚洲片| 激情欧美一区二区三区在线观看| 三级不卡在线观看| 日韩成人一区二区三区在线观看| 丰满放荡岳乱妇91ww| 久久久99久久| 亚洲二区在线视频| 欧美日韩在线播放| 7777精品伊人久久久大香线蕉经典版下载| 制服丝袜激情欧洲亚洲| 精品视频在线视频| 91国产免费观看| 欧美日韩在线不卡| 亚洲人成电影网站| 91精品国产一区| 国产suv精品一区二区三区88区 | 日本一区二区三区四区视频| 性欧美在线看片a免费观看| 国产99视频在线观看| 国产精品一二三在线| 99在线视频首页| 欧美日韩综合精品| 三上悠亚免费在线观看| 激情五月宗合网| 亚洲天堂2018av| 午夜免费福利影院| 国产精品18在线| 久久久久久久久久91| 伊人久久成人网| 日韩在线一二三区| av在线播放一区二区三区| 中文字幕一区二区日韩精品绯色| 午夜影院久久久| 这里是久久伊人| 亚洲人精品午夜在线观看| 欧美激情中文字幕乱码免费| 国产精品18久久久久久麻辣| 亚洲一区二区三区xxx视频| 热这里只有精品| 免费看黄在线看| 日韩精品视频一区二区在线观看| 熟女少妇精品一区二区| 国产精品视频一区二区三区四区五区| 国内少妇毛片视频| 日本毛片在线免费观看| 少妇伦子伦精品无吗| 欧美熟妇一区二区| 东方伊人免费在线观看| 综合激情网五月| 视频一区在线视频| 国产欧美精品一区二区三区四区| 尤物av一区二区| 欧美日韩精品在线播放| 这里只有精品视频在线观看| 亚洲欧洲在线观看| 2024亚洲男人天堂| 成人黄色在线免费观看| 久久久神马电影| 秋霞无码一区二区| 亚洲av无码成人精品区| 国产精品丝袜一区二区| 国产老妇伦国产熟女老妇视频| 精品一二三四区| 亚洲精品视频免费看| 欧美一区二区三区在线观看| 日韩av在线免费观看一区| 欧美老少做受xxxx高潮| 99热最新在线| 成人免费在线网| 久久久男人的天堂| 天天操天天爽天天干| 欧美一级片免费| 久久久不卡影院| 7878成人国产在线观看| 欧美丰满少妇xxxxx| 5g国产欧美日韩视频| 国产青青在线视频| 精品无码在线视频| 中文字幕有码视频| av欧美精品.com| 欧美日韩一区二区三区免费看| 色综合视频网站| 狠狠色噜噜狠狠狠狠色吗综合| 日韩中文字幕免费在线| 欧美性受xxxx黑人| 神马午夜电影一区二区三区在线观看| 成人午夜免费av| 欧美日韩一级黄| 欧美激情日韩图片| 亚洲欧美日韩国产yyy| av在线网站免费观看| 国产99久久久久久免费看| a亚洲天堂av| 欧美丝袜丝交足nylons| 亚洲**2019国产| 中文字幕欧美人与畜| 中字幕一区二区三区乱码| 亚洲精品.www| 一二三四区精品视频| 国产一区二区三区在线免费观看| 国产精品国产三级欧美二区 | 欧美精品久久久| 久久久久国产精品无码免费看| 欧美在线视频精品| 成人丝袜视频网| 欧美大胆一级视频| 国产精品偷伦免费视频观看的| 久久国产色av免费观看| 精品免费囯产一区二区三区| 久久影院电视剧免费观看| 精品动漫一区二区三区在线观看| 国产精品久久久久久久一区探花 | 亚洲天堂av免费在线观看| 老司机精品免费视频| 久久亚洲美女| 91福利社在线观看| 国产精品一区二区三区免费视频| 午夜久久久精品| 国产有码在线观看| 久久久久久久久久久久久女国产乱 | 国产精品美女毛片真酒店| 久久蜜桃av一区二区天堂| 精品视频在线播放免| 狠狠色伊人亚洲综合网站色| 精品无码国产一区二区三区51安| 99精品国产99久久久久久97| 玉足女爽爽91| 久久久欧美一区二区| 免费不卡av在线| 中文字幕在线观看国产| 亚洲欧洲日产国产综合网| 欧美疯狂xxxx大交乱88av|