![]()
來自微軟亞洲研究院、中國科學技術大學、上海交通大學和廈門大學的研究團隊在2025年10月發布了一項重要研究成果。這項研究發表在預印本平臺上,論文編號為arXiv:2510.08008v1,由王瑞哲、丁語城、劉瀟、王堯翔、程鵬、郭百寧、查正軍和龔業逸等研究者共同完成。
在人工智能快速發展的今天,訓練一個強大的大語言模型就像建造一座摩天大樓,需要消耗巨額成本和漫長時間。現在,人們普遍認為模型越大越好,訓練數據越多越強,但這樣的"軍備競賽"讓許多研究機構和公司望而卻步。更令人頭疼的是,在這個過程中會產生大量"半成品"模型——它們可能只訓練了一半,或者規模較小,通常會被直接丟棄,就像建筑工地上被浪費的材料一樣。
研究團隊敏銳地察覺到這個問題:為什么不能把這些"半成品"模型重新利用起來呢?他們提出了一個令人興奮的想法——就像給一棟已建好的房子加蓋樓層和擴建房間一樣,為現有的模型"擴容升級",而不是推倒重建。這種方法不僅能節省大量計算資源,還能讓那些被遺忘的模型重新煥發生機。
研究團隊專門針對一種叫做"專家混合"架構的模型進行了深入研究。這種模型就像一個擁有多位專家的智囊團,每個專家都有自己的專長領域。當遇到不同類型的問題時,模型會智能地選擇最合適的專家來處理。研究者發現了兩個關鍵的"擴容"方向:一是增加模型的"深度",就像給大樓加蓋更多樓層;二是增加"寬度",即添加更多專家,就像擴建更多房間。
在深度擴展方面,以往的研究通常采用"疊加"方法,就像簡單地把幾個相同的模塊堆疊在一起。但研究團隊發現,對于已經訓練成熟的模型,這種方法并不理想。他們創新性地提出了"插入式"方法,這就像在建筑中精心設計每一層的位置和功能,而不是簡單堆砌。通過分析多個成熟模型的內部結構,研究者發現這些模型的各層都有著獨特的"個性"——前面的層比較"活躍",中間的層逐漸"成熟",最后的層稍顯"內斂"。插入式方法能夠更好地保持這種自然形成的層次結構特征。
在寬度擴展方面,研究團隊發現了一個有趣現象:當向模型中添加新專家時,如果直接復制現有專家,新專家往往會變得"懶惰",不愿意學習新技能。為了解決這個問題,研究者采用了一個巧妙的策略——在復制專家時添加少量"噪音",就像給新員工分配稍微不同的工作內容,這樣能夠激勵他們發展自己的專業特長。這種方法確保了新增的專家能夠真正發揮作用,而不是成為冗余的"擺設"。
研究團隊進行了大量實驗來驗證他們的想法。他們首先用一個30億參數的模型進行了初步測試,將其擴展到60億參數。結果顯示,插入式深度擴展方法明顯優于傳統的疊加方法,在各種任務上都表現出更好的性能。隨后,他們進行了更加雄心勃勃的大規模實驗,將一個170億參數的模型逐步擴展到700億參數,使用了超過1萬億個訓練樣本。
這個大規模實驗的過程就像給一座17層的大樓改造成70層的摩天大廈。研究團隊首先將模型從28層擴展到54層,參數量從170億增加到350億。在這個中間階段訓練了一段時間后,他們又增加了專家數量,從96個專家擴展到192個,最終達到700億參數的規模。整個過程循序漸進,每一步都經過精心設計和驗證。
實驗結果令人振奮。在相同的額外計算預算下,使用模型擴展方法訓練出的700億參數模型比從零開始訓練的同規模模型表現提升了10.66%。這個數字背后的意義重大:意味著研究團隊找到了一種更加高效的模型訓練方式,能夠在有限的計算資源下獲得更強的性能。
研究團隊還深入探討了一個關鍵問題:什么時候進行模型擴展最合適?通過系統性實驗,他們發現了一個重要規律——投入的"沉沒成本"越多,最終的效果越好。這里的沉沒成本指的是在原始小模型上已經花費的訓練計算量。這個發現證實了一個直觀的想法:基礎越扎實,改造后的建筑越穩固。
在探索最佳擴展時機時,研究者發現即使是已經完全訓練收斂的模型,仍然可以通過擴展獲得顯著提升。這就像一棟已經建好的房子,通過合理的改造擴建,仍然能夠大幅提升其價值和功能。實驗顯示,從訓練后期的檢查點開始擴展,雖然分配給后續訓練的資源較少,但仍能獲得與從頭訓練相當甚至更好的效果。
研究團隊的方法在實際應用中展現了強大的可擴展性。他們證明了這種技術不僅適用于小規模模型,也能夠成功應用于大規模工業級模型。從30億參數到700億參數的跨越,證明了這種方法的廣泛適用性和實用價值。
這項研究的意義不僅僅在于技術層面的突破,更在于為整個AI行業提供了一種新的發展思路。在當前大模型訓練成本越來越高的背景下,如何更有效地利用已有的計算投入成為了一個迫切需要解決的問題。研究團隊的工作為這個問題提供了一個優雅的解決方案。
從環境保護的角度來看,這種方法也具有重要意義。訓練大語言模型需要消耗大量電力,產生相當的碳排放。通過重復利用已有的模型檢查點,可以顯著減少總體的計算需求,從而降低環境影響。這種"循環利用"的理念符合可持續發展的要求。
研究團隊在論文中詳細記錄了實驗的各個細節,包括模型架構設計、訓練超參數設置、數據集構成等。他們使用了包括常識推理、閱讀理解、科學問答等多個評測任務來全面評估模型性能。這種全面而嚴謹的評估方式確保了研究結果的可靠性和說服力。
值得注意的是,這種模型擴展方法對于不同類型的模型架構表現出了不同的適應性。研究者發現,對于使用預標準化結構的現代模型,擴展后的性能降低較小,而對于使用后標準化結構的傳統模型,可能會出現較明顯的性能波動。這個發現為未來的模型設計提供了重要參考。
在具體的技術實現上,研究團隊采用了多種優化策略來確保擴展過程的穩定性。他們使用了梯度裁剪、學習率調度、混合精度訓練等技術來維持訓練的穩定性。同時,他們還采用了分布式訓練技術來處理大規模模型的計算需求。
研究團隊的工作還揭示了一個有趣的現象:模型的內部結構在訓練過程中會形成特定的模式。通過分析不同層的權重分布,他們發現成熟模型的各層呈現出獨特的"指紋"特征。這種發現不僅有助于理解模型的工作機制,也為未來的模型設計和優化提供了新的思路。
說到底,這項研究為AI領域帶來了一個全新的視角:不再只是追求從零開始訓練更大的模型,而是學會聰明地利用已有的成果。就像城市規劃中的舊城改造一樣,通過精心設計和巧妙改造,老建筑也能煥發新的生機。這種思路不僅經濟高效,還能讓整個AI發展更加可持續。
對于普通人來說,這項研究意味著未來的AI服務可能會變得更加便宜和普及。當訓練成本降低時,更多的公司和研究機構就能夠負擔得起先進的AI技術,從而推動整個行業的創新和發展。歸根結底,這項技術突破讓我們看到了一條通往更強AI的高效道路,不需要無限制地燒錢,而是通過聰明的策略實現技術進步。有興趣深入了解技術細節的讀者可以通過論文編號arXiv:2510.08008v1查詢完整的研究論文。
Q&A
Q1:模型擴展方法具體是怎么工作的?
A:模型擴展方法就像給建筑物進行改造升級。對于深度擴展,研究團隊采用"插入式"方法,在現有模型的各層之間精確插入新層,而不是簡單堆疊,這樣能保持模型原有的層次結構特征。對于寬度擴展,他們向專家混合模型中添加新專家,并在復制時加入少量噪音,確保新專家能學會不同的專業技能。
Q2:這種方法能節省多少訓練成本?
A:研究實驗顯示,在相同的額外計算預算下,使用模型擴展方法的效果比從零開始訓練提升了10.66%。更重要的是,這種方法能夠重復利用那些原本會被丟棄的"半成品"模型,將已投入的計算資源轉化為最終模型的性能優勢,從而顯著降低總體訓練成本。
Q3:什么時候使用模型擴展方法效果最好?
A:研究發現,投入的"沉沒成本"越多,擴展后的效果越好。即使是已經完全訓練收斂的模型,仍然可以通過擴展獲得顯著提升。不過最佳時機是在模型訓練的穩定期進行擴展,避免在學習率劇烈變化的階段操作,這樣能確保擴展過程更加平穩有效。





京公網安備 11011402013531號