2 月 15 日消息,科技媒體 marktechpost 昨日(2 月 14 日)發布博文,報道稱加州大學伯克利分校的研究團隊提出了一種 AI 訓練方法,僅需少量數據即可增強大語言模型(LLM)推理能力。
提升 LLM 推理能力的難點在于訓練模型生成具有結構化自反思、驗證和回溯的長鏈式思維(CoT)響應。現有模型的訓練過程通常需要在大量數據集上進行昂貴的微調,且許多專有模型的訓練方法并不公開。
研究團隊提出了一種新的訓練方法,僅使用 17000 個 CoT 示例,微調 Qwen2.5-32B-Instruct 模型,并結合了 SFT 和 LoRA 微調技術,強調優化推理步驟的結構完整性而非內容本身,通過改進邏輯一致性并最大限度地減少不必要的計算開銷,從而顯著提高了 LLM 的推理效率。

研究表明,在增強 LLM 推理性能方面,CoT 的結構起著至關重要的作用,改變訓練數據的邏輯結構會顯著影響模型的準確性,而修改單個推理步驟的影響則很小。

附上使用新方法后的測試效果如下:
AIME 2024:準確率達到 56.7%,提升了 40.0 個百分點。
LiveCodeBench:得分 57.0%,提升了 8.1 個百分點。
Math-500:達到 90.8%,提升了 6.0 個百分點。
AMC 2023:達到 85.0%,提升了 17.5 個百分點。
OlympiadBench:達到 60.3%,提升了 12.7 個百分點。
這些結果表明,高效的微調技術可以使 LLM 在更少的數據需求下達到與 OpenAI 的 o1-preview 等專有模型相媲美的推理能力。






京公網安備 11011402013531號