當大模型軍備競賽讓算力成本高不可攀,前OpenAI首席技術官Mira Murati領銜的Thinking Machines Lab,正用一項名為“在線策略蒸餾”(On-Policy Distillation)的突破性技術,為行業按下“重啟鍵”。最新研究顯示:僅80億參數的小模型,經此方法訓練后,性能可達32B大模型的70%,而訓練成本驟降90%,效率提升50至100倍——這意味著,中小企業甚至個人開發者,也能以極低成本訓練出媲美巨頭的專用AI。
50-100倍效率躍升:150步干翻1.8萬GPU小時傳統強化學習(RL)訓練動輒需數萬步迭代與海量算力。以數學推理任務AIME'24為例,純RL方法耗費17,920個GPU小時,準確率僅68%;而采用在線策略蒸餾的Qwen3-8B模型,僅150步訓練即達70%準確率,計算開銷幾乎可忽略。
其核心在于“每token密集反饋”機制:不同于RL僅在回合結束給予稀疏獎勵,在線蒸餾讓教師模型對學生生成的每一個token實時評分,提供連續、精準的指導信號。這不僅加速收斂,更有效防止長序列訓練中的“策略漂移”,讓小模型在有限資源下穩定輸出高質量結果。
破解“災難性遺忘”:學新知識不忘舊本領AI模型在注入新知識時常“忘本”——實驗顯示,某模型經內部文檔微調后,指令遵循能力從85%暴跌至45%。而在線策略蒸餾通過實時軌跡采樣+教師逐步校正,在保留41%新知識的同時,將原有能力迅速恢復至83%,遠超傳統微調或離線蒸餾。
這一特性使其特別適合企業場景:模型可動態學習業務新規、產品文檔,而不丟失基礎對話、工具調用等核心能力,真正實現“持續進化”。
四步閉環:簡潔架構,普惠落地該方法實現極為輕量,僅需四步閉環:
部署教師模型(如32B大模型)作為監督源;
學生模型生成響應軌跡;
教師計算每個token的對數概率;
以反向KL散度為損失,優化學生參數。
無需復雜基礎設施,兼容現有蒸餾框架,即可實現“廉價而準確”的性能躍遷。論文指出,該技術可無縫擴展至代碼生成、多模態推理等任務,為“教師-學生”協同訓練開辟新路徑。
Mira Murati的“降維打擊”:AI民主化的關鍵鑰匙作為OpenAI前CTO,Murati將大模型訓練的實戰經驗反哺于高效小模型生態。在AI安全與對齊日益重要的今天,在線策略蒸餾不僅提升效率,更通過可控的知識遷移,增強模型行為的可預測性。
行業專家預測,該技術將極大推動開源模型與邊緣AI的發展——當8B模型能勝任32B任務,手機、IoT設備乃至本地服務器,都將成為高性能AI的載體。智能,正從“云端壟斷”走向“人人可及”。
這場由Murati掀起的訓練革命,或許正是AI從“巨頭游戲”邁向“普惠工具”的轉折點。當小模型也能“聰明”如大模型,真正的智能民主化時代,才剛剛開始。





京公網安備 11011402013531號