日前,第42屆國際機器學習大會(ICML 2025)在加拿大溫哥華會議中心盛大舉行,基于在前沿技術領域的多年探索與深耕,作業幫技術團隊成功在該頂會發表重要研究成果。團隊創新性地推出基于能量的偏好模型(EBM)及能量偏好對齊(EPA)方法,在大語言模型人機偏好對齊任務中,性能全方位超越傳統方案,為智能教育場景提供了更為精準、穩定的技術支持,AI在教育領域的落地探索有了突破性的進展。?
作為機器學習領域的國際頂級盛會,大會吸引了全球頂尖研究者踴躍參與,共收到12107篇有效投稿,經過嚴格的雙盲評審,最終3260篇論文成功入選,錄用率約為26.9%。在如此激烈的競爭環境下,作業幫的論文作為AI+教育領域的代表性成果脫穎而出,更加突出其研究的創新性與重要價值。?

智能交互作為智能教育中的重要場景,需要嚴謹的解題步驟、通俗易懂的講解語言,對AI模型的理解能力提出了更高的要求。論文背景中顯示,過往傳統方法多依賴 Bradley-Terry偏好模型(BTM),但該模型存在 “最優解不唯一”這一先天性缺陷。這一弊端使得基于有限數據訓練的模型在面對復雜多變的教學場景時,難以給出最優的響應,極大程度上干擾了學生的學習體驗,也限制了智能教育工具效能的發揮。?
作業幫團隊瞄準能量基偏好模型(EBM),從理論底層實現關鍵突破。該模型借助全局歸一化處理方式,能夠天然適配諸如學生多樣化答題思路這類無限候選空間,確保最優解具有唯一性。同時,它還能嚴格契合 “模型預測與真實偏好線性一致”這一關鍵條件,從根本上化解了傳統模型的不穩定性問題,為后續技術優化與應用拓展奠定了堅實的理論基石。?
基于這一創新性理論,團隊進一步精心設計出具備高實用性的 EPA方法。該方法運用 “優質答案 +強干擾答案 +弱干擾答案”的三重對比訓練機制,賦能模型在有限數據條件下,也能夠精準捕捉教育場景中千頭萬緒的細微偏好。依據實驗數據所示,在 Alpaca eval 2.0等權威基準測試場景中,EPA方法的勝率相較于傳統 DPO方法,最高可提升 4個百分點。尤其在高復雜度場景里,其表現更為穩健,過擬合風險大幅降低。?
然而,由于教育場景的低容錯率,對AI的偏好理解精準度要求近乎苛刻。以數學學科為例,同一道數學題往往存在多種解法,這就亟需模型精準無誤地識別‘步驟規范’‘邏輯清晰’等細微差異。EBM模型的獨特優勢恰恰體現在對這類復雜偏好的深度挖掘與捕捉能力上。 據了解,該技術在未來將深度嵌入智能解題、個性化輔導等學習場景中,助力AI更加精準地洞察學生學習需求與學校的教學習慣,持續為用戶帶來體驗升級。?
作為教育科技領域的領先企業,作業幫依托“教育+科技”的雙引擎優勢,持續在前沿技術領域深入探索,積極推動AI技術在教育場景中的應用落地。此次在ICML 2025上發表的技術成果,既是對作業幫AI技術實力的高度認可,也推動了大模型對齊技術的進步,為智能教育產業注入了全新的強勁動力。





京公網安備 11011402013531號