結構為王：AI 推理新思路，思維鏈結構成突破 LLM 高效訓練關鍵

IP屬地中國·北京 編輯：朱天宇 IT之家 時間：2025-02-15 14:31:58

2 月 15 日消息，科技媒體 marktechpost 昨日（2 月 14 日）發布博文，報道稱加州大學伯克利分校的研究團隊提出了一種 AI 訓練方法，僅需少量數據即可增強大語言模型（LLM）推理能力。
提升 LLM 推理能力的難點在于訓練模型生成具有結構化自反思、驗證和回溯的長鏈式思維（CoT）響應。現有模型的訓練過程通常需要在大量數據集上進行昂貴的微調，且許多專有模型的訓練方法并不公開。
研究團隊提出了一種新的訓練方法，僅使用 17000 個 CoT 示例，微調 Qwen2.5-32B-Instruct 模型，并結合了 SFT 和 LoRA 微調技術，強調優化推理步驟的結構完整性而非內容本身，通過改進邏輯一致性并最大限度地減少不必要的計算開銷，從而顯著提高了 LLM 的推理效率。
研究表明，在增強 LLM 推理性能方面，CoT 的結構起著至關重要的作用，改變訓練數據的邏輯結構會顯著影響模型的準確性，而修改單個推理步驟的影響則很小。
附上使用新方法后的測試效果如下：

AIME 2024：準確率達到 56.7%，提升了 40.0 個百分點。

LiveCodeBench：得分 57.0%，提升了 8.1 個百分點。

Math-500：達到 90.8%，提升了 6.0 個百分點。

AMC 2023：達到 85.0%，提升了 17.5 個百分點。

OlympiadBench：達到 60.3%，提升了 12.7 個百分點。
這些結果表明，高效的微調技術可以使 LLM 在更少的數據需求下達到與 OpenAI 的 o1-preview 等專有模型相媲美的推理能力。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

時間的“相對論”：為什么我們總覺得時間越跑越快？『心靈加油站』（271）

VC為何關心比鄰星之旅？滴水湖畔“仰望星空”，上海這樣求解未來

《電腦愛好者》雜志公眾號注銷、官網無法訪問，創刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產了？

王力宏伴舞機器人高難度后空翻后穩穩落地，馬斯克點贊！

長城歐拉出奇招：“一車多動力”打破單點競爭

全站最新

時間的“相對論”：為什么我們總覺得時間越跑越快？『心靈加油站』（271）

VC為何關心比鄰星之旅？滴水湖畔“仰望星空”，上海這樣求解未來

《電腦愛好者》雜志公眾號注銷、官網無法訪問，創刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產了？

熱門推薦

時間的“相對論”：為什么我們總覺得時間越跑越快？『心靈加油站』（271）

VC為何關心比鄰星之旅？滴水湖畔“仰望星空”，上海這樣求解未來

《電腦愛好者》雜志公眾號注銷、官網無法訪問，創刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產了？

王力宏伴舞機器人高難度后空翻后穩穩落地，馬斯克點贊！

長城歐拉出奇招：“一車多動力”打破單點競爭

上饒農商行被罰240萬，上饒銀行被罰170萬

2025年流星雨迎來謝幕演出小熊座流星雨22日極大

雷軍轉發！小米汽車又獲獎再引發輿論安全追問

鴻蒙正奔騰！解碼中國自主操作系統的生態成熟好用的極限突圍

我國成功發射通信技術試驗衛星二十三號

寶馬3系全球產量突破1800萬輛，50年傳奇仍在繼續

降息，突發！集體拉升，近8萬人爆倉！

給AI一雙眼睛：XR眼鏡正在重塑下一代智能終端

摩爾線程技術路線圖全面公開！刷新國產GPU推理天花板，新架構能效飆10倍