當(dāng)前位置：首頁 ? 資訊 ? 新科技 ? 正文

突破數(shù)據(jù)瓶頸：Salesforce如何讓AI訓(xùn)練效率提升100倍

IP屬地中國·北京 科技行者 時間：2025-11-15 00:11:10

在人工智能發(fā)展的浪潮中，一項(xiàng)來自Salesforce AI研究院的突破性研究正在悄然改變整個行業(yè)的游戲規(guī)則。這項(xiàng)由陳浩霖、王世宇、劉祖鑫等研究人員共同完成的研究發(fā)表于2024年10月，論文編號為arXiv:2510.06499v1，為解決AI訓(xùn)練中的根本性問題提供了全新的解決方案。
目前，大型語言模型的訓(xùn)練就像是讓學(xué)生通過反復(fù)抄寫課文來學(xué)習(xí)語言一樣。學(xué)生看到一段文字，然后試圖一字不差地復(fù)制下來。這種被稱為"模仿學(xué)習(xí)"的方法雖然能讓AI學(xué)會說話，但就像只會背書的學(xué)生一樣，一旦遇到課本上沒有的問題，就會顯得手足無措。更糟糕的是，在實(shí)際應(yīng)用中，AI需要自己生成回答，而不是簡單地復(fù)制已有的文本，這就造成了訓(xùn)練和實(shí)際使用之間的巨大差距。
相比之下，強(qiáng)化學(xué)習(xí)就像是讓學(xué)生通過解決實(shí)際問題來學(xué)習(xí)。學(xué)生提出解決方案，老師給出反饋，學(xué)生根據(jù)反饋調(diào)整策略，不斷改進(jìn)。這種方法能讓AI真正理解問題的本質(zhì)，而不僅僅是機(jī)械地模仿。研究表明，通過強(qiáng)化學(xué)習(xí)訓(xùn)練的AI模型在解決復(fù)雜問題時表現(xiàn)更出色，而且需要的訓(xùn)練數(shù)據(jù)量大大減少。
然而，強(qiáng)化學(xué)習(xí)面臨著一個致命的瓶頸：數(shù)據(jù)稀缺。當(dāng)前用于AI預(yù)訓(xùn)練的數(shù)據(jù)就像一個裝滿各種書籍的巨大圖書館，包含超過1萬億個詞匯，涵蓋了人類知識的方方面面。而強(qiáng)化學(xué)習(xí)所需的數(shù)據(jù)卻像一個小書架，只有不到100億個精心挑選的問答對。這種巨大的數(shù)據(jù)規(guī)模差異，嚴(yán)重限制了強(qiáng)化學(xué)習(xí)的發(fā)展?jié)摿Α?/p>
為了解決這個根本性問題，Salesforce的研究團(tuán)隊(duì)開發(fā)了一套革命性的數(shù)據(jù)處理流水線，名為"Webscale-RL"。這套系統(tǒng)就像是一個高效的文檔轉(zhuǎn)換工廠，能夠?qū)⒑Ａ康木W(wǎng)絡(luò)文本資料系統(tǒng)性地轉(zhuǎn)換成適合強(qiáng)化學(xué)習(xí)的問答對。通過這種方法，他們成功構(gòu)建了包含120萬個高質(zhì)量問答對的數(shù)據(jù)集，覆蓋了9個不同的知識領(lǐng)域。
一、數(shù)據(jù)轉(zhuǎn)換的精妙設(shè)計(jì)
Webscale-RL數(shù)據(jù)處理流水線的工作原理就像是一個精密的文檔處理工廠。當(dāng)原始的網(wǎng)絡(luò)文檔進(jìn)入這個工廠時，首先會經(jīng)過質(zhì)量篩選環(huán)節(jié)。系統(tǒng)會識別并剔除那些內(nèi)容空洞或信息不完整的文檔，就像工廠的質(zhì)檢員會把有缺陷的原材料挑出來一樣。
接下來是域分類和角色分配環(huán)節(jié)，這個過程特別巧妙。系統(tǒng)不僅會識別每篇文檔屬于哪個知識領(lǐng)域，比如醫(yī)療健康、商務(wù)貿(mào)易或科學(xué)技術(shù)，還會為每篇文檔分配多個不同的"角色視角"。以一篇關(guān)于銀行服務(wù)的文章為例，系統(tǒng)可能會分配"金融分析師"、"普通消費(fèi)者"和"商學(xué)院學(xué)生"三個不同的角色。這樣做的好處是，同一篇文檔可以從不同角度生成多樣化的問答對，大大豐富了數(shù)據(jù)的多樣性。
問答對生成環(huán)節(jié)是整個流水線的核心。系統(tǒng)會根據(jù)分配的角色和領(lǐng)域標(biāo)簽，從預(yù)先準(zhǔn)備的示例庫中選擇相關(guān)的參考樣本，然后指導(dǎo)AI生成器從特定角色的視角提出問題并給出答案。這個過程就像是讓不同專業(yè)背景的人針對同一份材料提出他們關(guān)心的問題一樣。
最后一個環(huán)節(jié)是質(zhì)量檢查和泄漏控制。系統(tǒng)會驗(yàn)證生成的答案是否確實(shí)基于原文檔內(nèi)容，同時確保問題本身不會暴露答案。這就像是考試出題時，既要保證答案在參考資料中能找到，又要確保題目不會直接給出答案提示。
整個流水線處理完成后，系統(tǒng)還會進(jìn)行數(shù)據(jù)去重處理，避免與現(xiàn)有評測數(shù)據(jù)集產(chǎn)生重疊，確保實(shí)驗(yàn)結(jié)果的可靠性。這套精密的處理流程能夠?qū)⒋笠?guī)模的預(yù)訓(xùn)練數(shù)據(jù)高效轉(zhuǎn)換為高質(zhì)量的強(qiáng)化學(xué)習(xí)數(shù)據(jù)，同時保持原始數(shù)據(jù)的規(guī)模和多樣性優(yōu)勢。
二、數(shù)據(jù)集的規(guī)模與多樣性優(yōu)勢
通過Webscale-RL流水線處理，研究團(tuán)隊(duì)成功構(gòu)建了一個包含120萬個問答對的大規(guī)模數(shù)據(jù)集。這個數(shù)據(jù)集的構(gòu)建過程就像是將一個龐大的圖書館重新整理成一個精準(zhǔn)的問答資料庫。原始數(shù)據(jù)來源包括了DCLM、Wikipedia、MegaMath、Stack-v2等多個知名數(shù)據(jù)集，每個來源都貢獻(xiàn)了不同類型的知識內(nèi)容。
從數(shù)據(jù)分布來看，這個數(shù)據(jù)集展現(xiàn)出了前所未有的多樣性。數(shù)學(xué)和社會科學(xué)各占約21%，自然科學(xué)占16.4%，其他領(lǐng)域如生活方式、技術(shù)、醫(yī)療、教育、編程和商務(wù)也都有相當(dāng)比例的覆蓋。特別值得注意的是，生活方式類內(nèi)容占比超過8.6%，商務(wù)類內(nèi)容占比3.3%，這些在傳統(tǒng)強(qiáng)化學(xué)習(xí)數(shù)據(jù)集中經(jīng)常被忽視的領(lǐng)域，在Webscale-RL中得到了充分體現(xiàn)。
為了更直觀地展示這種多樣性優(yōu)勢，研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)有趣的對比實(shí)驗(yàn)。他們從Webscale-RL數(shù)據(jù)集和業(yè)界知名的Nemotron數(shù)據(jù)集中各隨機(jī)抽取5000個問題，使用先進(jìn)的文本編碼技術(shù)將這些問題轉(zhuǎn)換成數(shù)字特征，然后通過降維技術(shù)在二維平面上進(jìn)行可視化展示。
結(jié)果非常清晰：Nemotron數(shù)據(jù)集的問題主要聚集在幾個特定區(qū)域，顯示出明顯的主題集中性，主要圍繞數(shù)學(xué)、編程和科學(xué)等少數(shù)領(lǐng)域。而Webscale-RL數(shù)據(jù)集的問題則均勻分布在整個平面上，展現(xiàn)出更加廣泛和均衡的主題覆蓋。這種分布差異直觀地反映了兩種數(shù)據(jù)構(gòu)建方法的根本區(qū)別：傳統(tǒng)方法依賴于有限的專門數(shù)據(jù)源，而Webscale-RL方法則能夠保持預(yù)訓(xùn)練數(shù)據(jù)的原有多樣性。
這種多樣性優(yōu)勢的實(shí)際意義在于，通過這個數(shù)據(jù)集訓(xùn)練的AI模型不僅在傳統(tǒng)的數(shù)學(xué)和編程任務(wù)上表現(xiàn)出色，在常識推理、社會科學(xué)理解、生活常識等更加貼近普通用戶需求的任務(wù)上也能發(fā)揮良好的性能。這為開發(fā)真正的通用AI助手奠定了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。
三、實(shí)驗(yàn)設(shè)計(jì)的科學(xué)嚴(yán)謹(jǐn)性
為了驗(yàn)證Webscale-RL方法的有效性，研究團(tuán)隊(duì)設(shè)計(jì)了一套極為嚴(yán)謹(jǐn)?shù)膶Ρ葘?shí)驗(yàn)。實(shí)驗(yàn)的核心思路是將同樣的基礎(chǔ)AI模型分別用不同的方法進(jìn)行訓(xùn)練，然后在多個標(biāo)準(zhǔn)測試集上比較它們的表現(xiàn)。這就像是用同樣的食材，分別按照不同的菜譜來烹飪，最后比較哪種做法做出的菜最美味。
實(shí)驗(yàn)選擇了Qwen2.5-3B作為基礎(chǔ)模型，這是一個擁有30億參數(shù)的中等規(guī)模語言模型。研究團(tuán)隊(duì)將其與幾種主流的訓(xùn)練方法進(jìn)行對比：傳統(tǒng)的繼續(xù)預(yù)訓(xùn)練方法、QuRating數(shù)據(jù)篩選方法、ProX程序化清洗方法，以及生成式數(shù)據(jù)精煉方法。
為了確保實(shí)驗(yàn)的公平性，研究團(tuán)隊(duì)特別注意到一個重要細(xì)節(jié)：強(qiáng)化學(xué)習(xí)訓(xùn)練會顯著改善模型的指令遵循能力，而繼續(xù)預(yù)訓(xùn)練的模型可能在回答問題時表現(xiàn)得不夠積極，這可能會在評測中造成不公平的比較。為了解決這個問題，研究團(tuán)隊(duì)專門構(gòu)建了一個包含1萬個高質(zhì)量樣本的監(jiān)督微調(diào)數(shù)據(jù)集，讓所有的基線方法都經(jīng)過這個額外的訓(xùn)練步驟，確保它們在指令遵循方面達(dá)到相似的水平。
監(jiān)督微調(diào)數(shù)據(jù)集的構(gòu)建過程也很巧妙。研究團(tuán)隊(duì)首先通過Webscale-RL流水線生成問答對，然后使用GPT-4.1為每個答案生成詳細(xì)的推理過程。這種方法避免了完全依賴其他AI模型進(jìn)行蒸餾的問題，因?yàn)榇鸢傅恼_性是基于原始文檔驗(yàn)證的，AI只需要補(bǔ)充推理步驟，大大降低了出現(xiàn)錯誤的風(fēng)險。
在強(qiáng)化學(xué)習(xí)訓(xùn)練階段，研究團(tuán)隊(duì)采用了GRPO算法，這是一種專門為語言模型設(shè)計(jì)的策略優(yōu)化方法。訓(xùn)練過程中，模型會根據(jù)生成的答案是否與標(biāo)準(zhǔn)答案匹配來獲得獎勵信號。這個過程就像是學(xué)生做練習(xí)題，答對了就得到表揚(yáng)，答錯了就得到糾正，通過不斷的反饋來改進(jìn)回答質(zhì)量。
整個實(shí)驗(yàn)設(shè)計(jì)不僅考慮了方法的有效性驗(yàn)證，還特別關(guān)注了訓(xùn)練效率的比較。研究團(tuán)隊(duì)在不同的數(shù)據(jù)規(guī)模下進(jìn)行了測試，從1000萬個詞匯到10億個詞匯，系統(tǒng)地比較了強(qiáng)化學(xué)習(xí)和傳統(tǒng)預(yù)訓(xùn)練方法在不同數(shù)據(jù)量下的表現(xiàn)曲線。這種全面的實(shí)驗(yàn)設(shè)計(jì)確保了結(jié)論的可靠性和實(shí)用價值。
四、令人矚目的實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果展現(xiàn)出了Webscale-RL方法的顯著優(yōu)勢，這些數(shù)據(jù)就像是一份令人驚喜的成績單。在多項(xiàng)綜合測試中，使用Webscale-RL數(shù)據(jù)集進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練的模型全面超越了所有基線方法，平均性能提升了3.4個百分點(diǎn)。
更令人印象深刻的是，這個僅有30億參數(shù)的小型模型經(jīng)過Webscale-RL訓(xùn)練后，與擁有70億參數(shù)的大型基礎(chǔ)模型之間的性能差距從原來的10.6個百分點(diǎn)縮小到了6.1個百分點(diǎn)。這意味著通過更好的訓(xùn)練方法，較小的模型也能達(dá)到接近大型模型的性能水平，這對于實(shí)際應(yīng)用具有重要意義。
在具體的測試項(xiàng)目中，Webscale-RL方法在不同類型的任務(wù)上都展現(xiàn)出了穩(wěn)定的優(yōu)勢。在通用知識測試MMLU-pro中，模型得分從基礎(chǔ)的37.8分提升到43.7分。在推理能力測試Big-Bench中，得分從41.2分上升到48.3分。在科學(xué)問答測試GPQA-diamond中，得分從20.8分提高到23.2分。這些提升看似數(shù)字上的小幅增長，但在AI性能評測中，每一個百分點(diǎn)的提升都意味著模型能力的顯著改善。
特別值得關(guān)注的是數(shù)學(xué)推理能力的提升。在MATH500測試中，模型得分從47.6分躍升到58.0分，這個10.4分的提升幅度相當(dāng)顯著。研究團(tuán)隊(duì)分析認(rèn)為，這主要?dú)w功于強(qiáng)化學(xué)習(xí)方法能夠更好地激勵數(shù)學(xué)推理過程，而不是簡單地模仿數(shù)學(xué)解題步驟。
在編程任務(wù)上，雖然提升幅度相對較小，但研究團(tuán)隊(duì)指出這主要是因?yàn)轭A(yù)訓(xùn)練數(shù)據(jù)中編程相關(guān)內(nèi)容的比例較低。這個發(fā)現(xiàn)也為未來的改進(jìn)方向指明了道路：針對特定應(yīng)用場景，可以調(diào)整預(yù)訓(xùn)練數(shù)據(jù)的領(lǐng)域分布來優(yōu)化性能。
最引人注目的發(fā)現(xiàn)是訓(xùn)練效率的巨大提升。在相同的訓(xùn)練數(shù)據(jù)量下，強(qiáng)化學(xué)習(xí)方法能夠?qū)崿F(xiàn)比傳統(tǒng)預(yù)訓(xùn)練方法顯著更好的性能。更令人驚嘆的是，強(qiáng)化學(xué)習(xí)僅使用約1000萬個詞匯的訓(xùn)練量就能達(dá)到傳統(tǒng)預(yù)訓(xùn)練方法使用10億個詞匯才能實(shí)現(xiàn)的效果，這意味著訓(xùn)練效率提升了約100倍。
這種效率提升的實(shí)際意義非常重大。對于資源有限的研究機(jī)構(gòu)或企業(yè)來說，能夠用更少的計(jì)算資源和訓(xùn)練時間達(dá)到相同甚至更好的效果，大大降低了開發(fā)高性能AI模型的門檻。同時，這也為在移動設(shè)備或邊緣設(shè)備上部署高性能AI模型開辟了新的可能性。
五、技術(shù)創(chuàng)新的深層價值
Webscale-RL方法的技術(shù)創(chuàng)新不僅體現(xiàn)在性能數(shù)據(jù)上，更重要的是它解決了AI訓(xùn)練領(lǐng)域的一個根本性問題。傳統(tǒng)的AI訓(xùn)練就像是讓學(xué)生通過反復(fù)抄寫來學(xué)習(xí)，這種方法雖然簡單直接，但存在明顯的局限性。學(xué)生可能會機(jī)械地記住文字表面，卻不能真正理解內(nèi)容的含義，更難以應(yīng)對書本上沒有的新問題。
強(qiáng)化學(xué)習(xí)方法則更像是真實(shí)的學(xué)習(xí)過程。學(xué)生需要主動思考，提出解決方案，根據(jù)反饋調(diào)整策略。這種互動式的學(xué)習(xí)過程能夠培養(yǎng)更深層的理解能力和更強(qiáng)的問題解決能力。然而，設(shè)計(jì)有效的強(qiáng)化學(xué)習(xí)訓(xùn)練需要大量高質(zhì)量的練習(xí)題目，這正是傳統(tǒng)方法面臨的瓶頸。
Webscale-RL的創(chuàng)新在于找到了一種巧妙的方法來解決這個瓶頸。它不是簡單地依賴人工標(biāo)注或其他AI模型生成訓(xùn)練數(shù)據(jù)，而是從現(xiàn)有的大規(guī)模文本資料中系統(tǒng)性地提取可驗(yàn)證的知識點(diǎn)。這種方法既保證了數(shù)據(jù)的準(zhǔn)確性，又維持了原始數(shù)據(jù)的規(guī)模和多樣性優(yōu)勢。
從技術(shù)架構(gòu)角度看，Webscale-RL流水線的設(shè)計(jì)體現(xiàn)了多個關(guān)鍵創(chuàng)新。首先是多角色視角的引入，這種設(shè)計(jì)讓同一份資料能夠從不同專業(yè)背景的角度產(chǎn)生多樣化的問題。其次是嚴(yán)格的質(zhì)量控制機(jī)制，確保生成的問答對既準(zhǔn)確又具有挑戰(zhàn)性。再次是可擴(kuò)展的處理架構(gòu)，理論上可以處理任意規(guī)模的原始數(shù)據(jù)。
更深層次的價值在于，這種方法為AI訓(xùn)練范式的轉(zhuǎn)變提供了可行的技術(shù)路徑。當(dāng)前的AI發(fā)展主要依賴于增大模型規(guī)模和訓(xùn)練數(shù)據(jù)量，這種"暴力擴(kuò)展"的方式面臨著越來越嚴(yán)重的資源瓶頸。Webscale-RL方法展示了通過改進(jìn)訓(xùn)練方法來提升效率的巨大潛力，為構(gòu)建更加高效和可持續(xù)的AI開發(fā)路徑指明了方向。
從應(yīng)用前景看，這種方法特別適合那些需要多領(lǐng)域知識和常識推理能力的AI應(yīng)用場景。無論是智能客服、教育輔導(dǎo)、內(nèi)容創(chuàng)作，還是科學(xué)研究助手，都能從這種更加全面和深入的訓(xùn)練方法中獲益。
六、實(shí)際應(yīng)用與未來展望
Webscale-RL方法的實(shí)際應(yīng)用潛力遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)研究的范疇，它為整個AI產(chǎn)業(yè)的發(fā)展提供了新的思路和工具。在當(dāng)前AI技術(shù)快速發(fā)展的背景下，這種方法特別適合解決實(shí)際部署中的關(guān)鍵問題。
對于企業(yè)級AI應(yīng)用開發(fā)者而言，Webscale-RL方法提供了一種更加經(jīng)濟(jì)高效的模型訓(xùn)練方案。傳統(tǒng)的大模型訓(xùn)練需要消耗巨大的計(jì)算資源和時間成本，往往只有資源雄厚的大公司才能承擔(dān)。而Webscale-RL方法能夠在相對較小的計(jì)算預(yù)算下實(shí)現(xiàn)出色的性能，這為中小企業(yè)和初創(chuàng)公司進(jìn)入AI領(lǐng)域降低了門檻。
在教育技術(shù)領(lǐng)域，這種方法的多領(lǐng)域覆蓋特性使其特別適合開發(fā)智能教學(xué)助手。通過Webscale-RL訓(xùn)練的模型不僅能夠處理數(shù)學(xué)和科學(xué)問題，還能很好地理解文史社科內(nèi)容，為學(xué)生提供更加全面的學(xué)習(xí)支持。更重要的是，強(qiáng)化學(xué)習(xí)訓(xùn)練讓模型具備了更好的推理能力，能夠引導(dǎo)學(xué)生思考而不是簡單地提供答案。
在內(nèi)容創(chuàng)作和媒體行業(yè)，Webscale-RL方法培養(yǎng)的模型展現(xiàn)出了更強(qiáng)的常識理解和多角度思考能力。這些特質(zhì)對于生成高質(zhì)量、有深度的內(nèi)容至關(guān)重要。無論是新聞寫作、創(chuàng)意文案還是技術(shù)文檔編寫，都能從這種訓(xùn)練方法中獲得更好的AI助手支持。
研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前方法的一些局限性和改進(jìn)空間。首先是數(shù)據(jù)分布的平衡問題，當(dāng)前數(shù)據(jù)集中編程相關(guān)內(nèi)容的比例相對較低，導(dǎo)致在代碼生成任務(wù)上的提升幅度不如其他領(lǐng)域顯著。針對這個問題，未來可以通過調(diào)整原始數(shù)據(jù)來源的比例來優(yōu)化特定領(lǐng)域的性能。
其次是獎勵機(jī)制的效率問題。當(dāng)前的強(qiáng)化學(xué)習(xí)訓(xùn)練采用生成式獎勵模型，需要為每個生成的答案進(jìn)行評估，這增加了訓(xùn)練過程中的計(jì)算開銷。研究團(tuán)隊(duì)建議未來可以探索更加高效的獎勵機(jī)制，比如基于特征匹配的輕量級評估方法。
從技術(shù)發(fā)展趨勢看，Webscale-RL方法為AI訓(xùn)練范式的演進(jìn)指明了重要方向。隨著高質(zhì)量文本數(shù)據(jù)的日益稀缺，如何更有效地利用現(xiàn)有數(shù)據(jù)資源成為關(guān)鍵挑戰(zhàn)。Webscale-RL提供的"數(shù)據(jù)轉(zhuǎn)換"思路不僅適用于強(qiáng)化學(xué)習(xí)，也可能啟發(fā)其他訓(xùn)練方法的創(chuàng)新。
研究團(tuán)隊(duì)已經(jīng)將完整的數(shù)據(jù)處理流水線和構(gòu)建的數(shù)據(jù)集開源發(fā)布，這為學(xué)術(shù)界和產(chǎn)業(yè)界的進(jìn)一步研究提供了寶貴資源。隨著更多研究者的參與和貢獻(xiàn)，這種方法有望在更多領(lǐng)域和更大規(guī)模上得到驗(yàn)證和改進(jìn)。
長遠(yuǎn)來看，Webscale-RL方法代表了AI訓(xùn)練從"規(guī)模驅(qū)動"向"效率驅(qū)動"轉(zhuǎn)變的重要探索。在計(jì)算資源和數(shù)據(jù)資源日益珍貴的未來，這種能夠顯著提升訓(xùn)練效率的方法具有巨大的實(shí)用價值和發(fā)展?jié)摿Α?/p>
說到底，Webscale-RL不僅僅是一個技術(shù)方法的創(chuàng)新，更是對AI發(fā)展路徑的深刻思考。它告訴我們，在追求更大更強(qiáng)的AI模型的同時，不應(yīng)忽視訓(xùn)練方法本身的改進(jìn)潛力。通過更聰明的訓(xùn)練策略，我們可能用更少的資源實(shí)現(xiàn)更好的效果，這為構(gòu)建更加可持續(xù)和普惠的AI技術(shù)生態(tài)提供了新的可能性。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的突破，它為整個AI產(chǎn)業(yè)指出了一條更加高效和可持續(xù)的發(fā)展道路。隨著這種方法的不斷完善和推廣，我們有理由相信，未來的AI技術(shù)將變得更加智能、高效和易于獲取，真正造福于更廣泛的用戶群體。有興趣深入了解這項(xiàng)研究的讀者可以通過論文編號arXiv:2510.06499v1查閱完整的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)。
Q&A
Q1：Webscale-RL數(shù)據(jù)流水線是什么？它解決了什么問題？
A：Webscale-RL是Salesforce開發(fā)的自動化數(shù)據(jù)處理系統(tǒng)，能夠?qū)⒋笠?guī)模網(wǎng)絡(luò)文本轉(zhuǎn)換成適合AI強(qiáng)化學(xué)習(xí)訓(xùn)練的問答對。它解決了強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù)嚴(yán)重不足的問題，傳統(tǒng)RL數(shù)據(jù)集只有不到100億個詞匯，而預(yù)訓(xùn)練數(shù)據(jù)有超過1萬億詞匯，這種數(shù)據(jù)規(guī)模差異嚴(yán)重限制了RL方法的發(fā)展?jié)摿Α?/p>
Q2：使用Webscale-RL訓(xùn)練的AI模型效果如何？
A：實(shí)驗(yàn)結(jié)果顯示，使用Webscale-RL數(shù)據(jù)集訓(xùn)練的模型在多項(xiàng)測試中全面超越傳統(tǒng)方法，平均性能提升3.4分。更重要的是訓(xùn)練效率提升了約100倍，僅用1000萬詞匯就能達(dá)到傳統(tǒng)方法用10億詞匯的訓(xùn)練效果。30億參數(shù)的小模型經(jīng)過訓(xùn)練后，與70億參數(shù)大模型的性能差距從10.6分縮小到6.1分。
Q3：Webscale-RL方法有什么實(shí)際應(yīng)用價值？
A：這種方法大大降低了高性能AI模型的開發(fā)門檻，讓中小企業(yè)也能用較少資源訓(xùn)練出優(yōu)秀模型。特別適合開發(fā)智能教學(xué)助手、內(nèi)容創(chuàng)作工具等需要多領(lǐng)域知識的AI應(yīng)用。研究團(tuán)隊(duì)已將數(shù)據(jù)處理流水線和數(shù)據(jù)集開源，為整個AI產(chǎn)業(yè)提供了更高效可持續(xù)的發(fā)展路徑。

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

觀察|全固態(tài)電池商業(yè)化時間表成爭議焦點(diǎn)，高成本或阻礙推廣

IDC：印度手機(jī)市場Q3創(chuàng)五年新高，vivo、OPPO、三星位列前三

在全球最大的科技峰會現(xiàn)場，他們用DeepSeek養(yǎng)出迷你“獨(dú)角獸”

千問APP發(fā)布日遭美方“指控”，背后是中美AI的無聲戰(zhàn)爭

明年沖擊100萬臺！零跑汽車2025年銷量目標(biāo)已達(dá)成

iPhone Air開啟eSIM時代：國內(nèi)廠商紛紛跟進(jìn)

全站最新

觀察|全固態(tài)電池商業(yè)化時間表成爭議焦點(diǎn)，高成本或阻礙推廣

IDC：印度手機(jī)市場Q3創(chuàng)五年新高，vivo、OPPO、三星位列前三

在全球最大的科技峰會現(xiàn)場，他們用DeepSeek養(yǎng)出迷你“獨(dú)角獸”

千問APP發(fā)布日遭美方“指控”，背后是中美AI的無聲戰(zhàn)爭

熱門推薦

觀察|全固態(tài)電池商業(yè)化時間表成爭議焦點(diǎn)，高成本或阻礙推廣

IDC：印度手機(jī)市場Q3創(chuàng)五年新高，vivo、OPPO、三星位列前三

2025世界城市文化大會聚焦AI時代城市文化

在全球最大的科技峰會現(xiàn)場，他們用DeepSeek養(yǎng)出迷你“獨(dú)角獸”

潤和軟件與中國科學(xué)院廣州生物醫(yī)藥與健康研究院達(dá)成戰(zhàn)略合作

千問APP發(fā)布日遭美方“指控”，背后是中美AI的無聲戰(zhàn)爭

明年沖擊100萬臺！零跑汽車2025年銷量目標(biāo)已達(dá)成

iPhone Air開啟eSIM時代：國內(nèi)廠商紛紛跟進(jìn)

劍指蘋果A20 高通驍龍8 Elite Gen6明年見：雙版本齊發(fā)

全球首發(fā)出圈實(shí)況拼圖！OPPO Reno15系列下周登場

全能搭子文心5.0，百度用原生全模態(tài)宣告回歸

中芯國際CEO：存儲漲價對邏輯代工有兩大致命影響

ADM、浪潮云和神州數(shù)碼成為開源歐拉社區(qū)新捐贈單位

登頂天貓雙11白酒榜首，劍南春的“第一”密碼

劇本殺不用搭場景、行車可“透視”，這場創(chuàng)新大賽把“未來”搬進(jìn)現(xiàn)實(shí)