Deepseek突破AI 訓(xùn)練燒錢(qián)魔咒：1/525 成本 MT-Bench 媲美 GPT-4o

IP屬地中國(guó)·北京 編輯：朱天宇 IT之家 時(shí)間：2025-05-16 17:06:20

根據(jù)研究團(tuán)隊(duì) 4 月 4 日發(fā)表的論文，該技術(shù)通過(guò)“原則合成-響應(yīng)生成-批判過(guò)濾-原則優(yōu)化”的遞歸架構(gòu)，讓模型能在推理時(shí)動(dòng)態(tài)修正輸出。
SPCT 方法分為兩個(gè)階段。一是拒絕式微調(diào)作為冷啟動(dòng)階段，讓 GRM 適應(yīng)不同輸入類型并以正確格式生成原則與點(diǎn)評(píng)內(nèi)容。二是基于規(guī)則的在線強(qiáng)化學(xué)習(xí)階段，采用基于規(guī)則的結(jié)果獎(jiǎng)勵(lì)，鼓勵(lì) GRM 生成更好的原則與點(diǎn)評(píng)內(nèi)容，提升推理階段可擴(kuò)展性。
測(cè)試中，270 億參數(shù)的 DeepSeek-GRM 模型測(cè)試顯示，通過(guò)每查詢 32 次采樣的推理計(jì)算，達(dá)到了 671B 規(guī)模模型的性能水平。這種硬件感知設(shè)計(jì)采用混合專家系統(tǒng)（MoE），支持 128k token 上下文窗口，單查詢延遲僅 1.4 秒。
報(bào)告指出 SPCT 顯著降低高性能模型的部署門(mén)檻，以 DeepSeek-GRM 模型為例，訓(xùn)練成本約 1.2 萬(wàn)美元（注：現(xiàn)匯率約合 87871 元人民幣），MT-Bench 得分 8.35。
模型規(guī)模MT-Bench預(yù)估訓(xùn)練成本DeepSeek-GRM27B8.35$12,000Nemotron-4340B8.41$1.2 millionGPT-4o1.8T8.72$6.3 million
作為對(duì)比，340B 的 Nemotron-4 需 120 萬(wàn)美元獲得 8.41 分。OpenAI 的 1.8T 參數(shù) GPT-4o 雖得 8.72 分，但成本高達(dá) 630 萬(wàn)美元（現(xiàn)匯率約合 4613.2 萬(wàn)元人民幣），而 DeepSeek-GRM 成本僅為 525 分之一。該技術(shù)減少 90% 人工標(biāo)注需求，能耗較 DPO 降低 73%，為實(shí)時(shí)機(jī)器人控制等動(dòng)態(tài)場(chǎng)景提供新可能。

免責(zé)聲明：本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

大模型進(jìn)展專欄第七期｜人工智能賦能科研范式重塑中國(guó)科學(xué)院 “磐石·科學(xué)基礎(chǔ)大模型”

博通發(fā)布Jericho4芯片：臺(tái)積電3nm工藝，可連接超100萬(wàn)顆處理器

中山醫(yī)院獲批國(guó)家人工智能應(yīng)用中試基地建設(shè)項(xiàng)目，將打造醫(yī)療AI創(chuàng)新策源地

“人工智能場(chǎng)景化應(yīng)用創(chuàng)新與產(chǎn)業(yè)落地論壇”在哈爾濱舉行多領(lǐng)域創(chuàng)新成果集中亮相

以科技引領(lǐng)產(chǎn)業(yè)，繪人工智能發(fā)展新篇

向新而行｜人工智能的“頭雁”效應(yīng)

全站最新

上海科普教育創(chuàng)新獎(jiǎng)揭曉，首設(shè)“前沿科技成果科普獎(jiǎng)”

《黃仁勛傳》作者威特：谷歌是對(duì)英偉達(dá)“AI霸權(quán)”的最大威脅

谷歌CEO「劈柴」親自下場(chǎng)分芯片！930億美元填不飽「算力饑荒」

復(fù)雜空間推理新SOTA，性能提升55%！中山大學(xué)新作SpatialDreamer

熱門(mén)推薦

中東人工智能金融科技公司Alaan獲4800萬(wàn)美元融資，助力企業(yè)智能化管理！

大模型進(jìn)展專欄第七期｜人工智能賦能科研范式重塑中國(guó)科學(xué)院 “磐石·科學(xué)基礎(chǔ)大模型”

博通發(fā)布Jericho4芯片：臺(tái)積電3nm工藝，可連接超100萬(wàn)顆處理器

美國(guó)證券交易委員會(huì)成立人工智能專責(zé)小組助力創(chuàng)新與效率提升

伊利諾伊州立法禁止人工智能提供心理健康服務(wù)

中山醫(yī)院獲批國(guó)家人工智能應(yīng)用中試基地建設(shè)項(xiàng)目，將打造醫(yī)療AI創(chuàng)新策源地

“人工智能場(chǎng)景化應(yīng)用創(chuàng)新與產(chǎn)業(yè)落地論壇”在哈爾濱舉行多領(lǐng)域創(chuàng)新成果集中亮相

國(guó)家安全部：警惕人工智能“數(shù)據(jù)投毒”

“人工智能+”覆蓋12個(gè)領(lǐng)域張家口人工智能應(yīng)用場(chǎng)景加速落地

推動(dòng)區(qū)域人工智能技術(shù)應(yīng)用中科聞歌人工智能研發(fā)中心啟用

以科技引領(lǐng)產(chǎn)業(yè)，繪人工智能發(fā)展新篇

向新而行｜人工智能的“頭雁”效應(yīng)

警惕人工智能數(shù)據(jù)污染：0.01%虛假文本可使有害輸出增11.2%

庫(kù)克：從未對(duì)蘋(píng)果的產(chǎn)品規(guī)劃感到如此興奮

獨(dú)家對(duì)話中國(guó)聯(lián)通趙亞暉，AI時(shí)代的“數(shù)據(jù)燃料”是如何煉成的？ | 浪潮對(duì)話