近日,谷歌在其研究中提出了一種新穎的主動學習篩選流程,旨在大幅降低微調大型語言模型所需的訓練數據量。根據實驗結果,這種方法能夠將訓練數據量降低至原來的1萬分之一,同時提高模型與人類專家判斷的一致性達65%。在實際應用中,如廣告內容分類、金融數據安全分析等領域,對高保真訓練數據的需求一直很高,但篩選出符合要求的數據不僅難度大,成本也極為昂貴。
圖源備注:圖片由AI生成,圖片授權服務商Midjourney
這一新方法從一個零樣本或少樣本的初始模型開始,用戶通過提示定義目標內容,比如詢問某廣告是否為 “點擊誘餌”。初始模型會將廣告標記為點擊誘餌或良性,并生成一個大型標記數據集。然而,初始數據集常常存在嚴重的類別不平衡,導致模型的準確識別能力較弱。
為了解決這一問題,研究者將模型標記為點擊誘餌和良性廣告的內容進行分組,發現部分組之間存在重疊,說明模型在這些內容上容易判斷錯誤。因此,研究者可以從這些重疊組中挑選樣本對,交由專家進行判斷,以此來控制審核成本,并優先選擇能覆蓋多種情況的樣本對。這樣得到的樣本既有價值,又涵蓋了各種可能出錯的情形。
在模型微調過程中,專家提供的標注被分為兩組,一組用于評估模型一致性,另一組則用于模型的微調。這一過程將不斷重復,直到模型的表現達到與人類專家相近的水平。
谷歌的實驗使用了 Gemini Nano-1和 Nano-2兩款模型,并針對兩個復雜度不同的任務進行了測試。在測試中,每個任務都使用了約10萬條眾包標注數據,盡管這些數據嚴重不平衡。結果表明,專家之間的判斷一致性很高,而眾包標簽與專家判斷的一致性則相對一般。通過新方法,32.5億參數的模型在低難度任務上的對齊度顯著提升,使用的數據量僅為250-450條,較原來的10萬條大幅減少,仍能取得良好的效果。
綜上所述,谷歌的新方法證明了只需少量高質量的數據,且確保專家標注一致性超過0.8,大型模型也能在訓練時獲得出色的表現。
劃重點:





京公網安備 11011402013531號