大模型“想太多”怎么解？這位碩士生用強化學習為模型減負提效

IP屬地中國·北京 編輯：任飛揚 DeepTech深科技 時間：2025-08-11 20:17:52

Next Gen
歡迎來到“Next Gen”。人工智能的邊界每日都在被拓展，一群富有遠見卓識的青年學者正站在浪潮之巔。我們追蹤并報道這些 AI 領域最具潛力的明日之星，展現他們在科研前沿的突破性工作，以及對未來智能時代的獨到見解。他們是誰？他們如何思考？他們又將把 AI 帶向何方？與我們一同發現那些正在定義未來的 AI 新生代。
易景陽是一名來自湖南的 00 后，目前在美國芝加哥大學數據科學專業攻讀碩士學位。與其他同齡人相比，他的學術背景頗具特色——本科畢業于中國人民大學金融專業，而后跨界進入人工智能領域深造。這一跨學科的背景為他當前的研究提供了獨特的視角。
最近，他和所在團隊為解決大模型“過度思考”的問題，提出了一種簡單而有效的方法 ShorterBetter[1]。該方法本質上是一個基于強化學習的公開模型，核心創新點在于通過特別設計的獎勵函數，讓推理模型能夠在沒有人工監督的情況下，自主尋找最佳思維鏈長度。
實驗結果表明，這一方法能在復雜問題上將模型的輸出長度顯著縮短 50% 至 80%，同時保持較高的準確性，為解決大模型生成冗長內容的問題提供了一種實用且高效的思路。
易景陽對 DeepTech 表示：“ShorterBetter 方法的優勢在于輕量級的設計，不僅簡單，而且對算力的要求較低。研究人員或企業可以將這種方法用于后訓練（post-training）的一個步驟，通過對模型輸出進行修剪，從而有效減少無用的輸出長度。”

圖丨易景陽（易景陽）

見證“ChatGPT 時刻”后，他決定到 AI 專業“折騰折騰”
易景陽自認為是一個喜歡瞎“折騰”的人，這種特質體現在他敢于放下已有成果、不斷探索新領域的勇氣上。這種性格特質源于他與生俱來的好奇心，以及對新事物持續燃燒的激情。
回顧他的成長歷程，這種特質早有端倪——盡管從小成績優異，高中時還參加過化學競賽，但他很快意識到理科競賽并不適合自己，于是果斷轉向更感興趣的文科領域。憑借出色的高考成績，他順利進入中國人民大學攻讀金融學專業，并在本科期間創建了一個專注于社會科學研究的學術社團，定期組織開展相關研究和討論活動。
2022 年年底，OpenAI 推出了 ChatGPT。當時，本來就密切關注 AI 動態的易景陽用了一個晚上的時間與 GPT 進行交流，探索它能否幫助執行一個復雜的任務——制作電子書閱讀器。
那時，他幾乎沒有計算機科學或 Python 等編程語言的經驗。結果 GPT 做出來的閱讀器不僅可以閱讀電子書，而且還能全文翻譯。“這對我產生了巨大的震撼，我意識到大語言模型可能會徹底改變人們的工作、學習和生活方式，至少可以極大地提升學習效率。”易景陽回憶道。
2023 年上半年，在美團工作期間，易景陽對 AI 技術和商業應用的關注達到了新高度。隨著對行業理解的深入，他內心要出去“折騰”的聲音越來越強烈，最終匯聚成一個明確的職業轉向決心——“我要去 AI 專業學習”。
他在咨詢意見的過程中收到了不同反饋，甚至很多人勸他放棄這個想法。一位在硅谷工作的工程師對他直言：“AI 領域太卷了，科班出身的人都不好找工作，你就不要瞎折騰了！”
但是，易景陽還是堅持了自己的想法，他的父母也給予了無條件支持。“他們相信我的判斷，還會去體驗了 AI 產品，這也給了我莫大的動力。”易景陽說。
而他的初心是希望結合在金融領域的累積，做出一些跨學科的原創性工作。基于對技術發展趨勢的判斷，他認為 AI 基礎知識將在未來十年內成為大學通識教育的重要組成部分。
恰逢芝加哥大學新成立數據科學研究所（Data Science Institute）——這個融合計算機科學與統計學、專注于 AI 前沿研究的學術機構為他提供了理想的發展平臺。在這里，他先就讀于經濟學專業，從事勞動經濟學研究，隨后轉入數據科學專業，師從譚宸浩教授。
這種獨特的跨學科背景不僅賦予易景陽理解 AI 技術社會影響的獨特視角，更使他能夠創造性地融合經濟學與社會科學研究方法。例如，在評估 AI 創業項目時，他會系統分析產品功能、用戶需求和成本結構等多維因素，形成更全面的商業判斷。
今年暑假，易景陽還參與了一個面向留學申請的創業項目，該項目通過智能 agent 技術整合全球高校研究生項目信息，為 DIY 申請者提供高效的信息服務。他進一步說道：“這個項目是把高校各種研究生項目的信息聚合起來，通過 agent 讓用戶能夠更好地交互和了解信息。以前，學生可能需要和中介老師聊天來獲取這些信息，但現在可以通過 agent 來實現。”

讓模型“少想”卻更聰明
今年 1 月，DeepSeek-R1 一經發布就受到了全球的矚目。與此同時，也掀起了學術界對其性能特點的研究熱潮。起初，騰訊團隊發現推理模型在得到正確答案后，會進行不必要的反復驗證[2]。
之后不久，易景陽與所在團隊也在研究中發現了一種普遍的現象——盡管以 DeepSeek-R1 為代表的大模型推理能力很強，但輸出效率存在明顯不足。
這種低效性在簡單問題的處理上表現得尤為突出。例如，當被提問“2+3 等于多少”這類基礎算術問題時，模型會用非常冗長的思考過程來回答：先從“2+1+2，2+1+1+1”開始，然后還會經過“wait，let me check again”自我驗證，最后以“let's finally verify the answer”結束。整個過程大概產生一兩百個 token，才得出“等于 5”的答案。
這種過度思考的現象雖然與模型的訓練機制有關，但對于簡單問題而言顯然是不必要的冗余。易景陽從系統設計的角度深入分析了這個問題的嚴重性：“在構建多模型 agent 系統時，如果單個模型的輸出過于冗長，這些冗余內容會成為其他模型的輸入上下文，從而在整個工作流中引入大量噪聲。隨著上下文窗口的快速膨脹，系統的整體性能將顯著下降。”
研究初期，團隊嘗試過多種直觀的解決方案，包括使用提示工程（prompt engineering）直接要求模型簡潔回答，例如明確指令“直接給出答案，不要多想”。然而這些嘗試均告失敗，因為模型的推理模式是通過強化學習深度訓練形成的，很難通過簡單的表層指令改變其底層行為模式。
這一研究困境在美國斯坦福大學李飛飛教授團隊的重要發現后出現了轉機 [3]。該團隊提出預算強制（Budget Forcing）方法，通過控制模型推理時的計算量（例如，在模型輸出末尾添加“wait，let me think again”的提示），就能有效延長思維鏈并提升推理能力。
這一發現啟發了易景陽的逆向思考：是否可以通過干預機制來抑制模型的重復驗證行為？但實驗證明，這種直接干預輸出過程的方法會嚴重損害模型的原有能力。
真正的突破來自對美國卡耐基梅隆大學團隊研究的借鑒，其提出可以使用強化學習來優化模型的輸出長度[4]。在深入研讀相關文獻后，易景陽決定調整研究方向，采用強化學習訓練模型自主探索最優輸出長度。

（arXiv）
他們首先提出了“樣本最優長度”（SOL，Sample Optimal Length）的理論框架：對于給定的任何問題（無論它是奧林匹克競賽難度的題，還是“2+3=5”這種簡單題），在給定模型能力的情況下，總有一個最佳的輸出長度區間。比如，難題的輸出長度可能是 1000 個 token 的詳細推導，而簡單題可能是 10 個 token 的直接回答。
SOL 的核心挑戰在于：一方面，人工標注所有問題的最優長度完全不現實；另一方面，人類專家實際上也無法準確預判每個問題的最優輸出長度。
針對上述挑戰，易景陽設計了一套創新的采樣方法：對同一問題生成多個正確回答（如 10 個），從中選取最短的正確回答作為臨時最優長度目標，再通過強化學習不斷迭代優化。
這種方法形成了一個高效的遞歸訓練循環——雖然每次只采樣有限數量的輸出，但經過 100-200 步的迭代訓練后，模型的輸出長度就能快速收斂到理想狀態。

圖丨更優、更短流程的流程圖（arXiv）
實驗數據表明，以 DeepSeek-Distill-Owen-1.5B/7B 為基礎模型時，ShorterBetter 方法在保持準確率不變的前提下，在領域內外各類推理任務中實現了最高 80% 的輸出長度壓縮。
這一發現挑戰了此前業界的普遍假設——更長的思維鏈必然帶來更高的正確率。值得注意的是，ShorterBetter 的實現并不需要大量計算資源，其本質是優化了模型的表達方式而非增強其核心能力。
易景陽用生動的比喻解釋道：“這就像幫助一個有口吃問題的天才改善表達方式。我們的方法沒有改變模型的智能水平，只是讓它能夠更簡潔流暢地表達思想。目前，我們正在通過更多實驗來驗證這些理論假設。”

表丨7B 模型在多樣化任務中的性能比較（arXiv）
日前，相關論文以《ShorterBetter：引導推理模型尋找最優推理長度以實現高效推理》（ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning）為題發表在預印本網站arXiv[1]。論文作者包括易景陽、芝加哥大學碩士生王家錚和博士生李思達。

圖丨相關論文（arXiv）
在易景陽看來，AI 技術正在以驚人的速度更新迭代，但同時技術同質化問題也日益嚴重。他以今年 3 月推出的 Manus 產品為例：雖然該產品最初憑借創新性獲得廣泛關注，但在短短幾個月內，科技巨頭們就迅速推出了功能相似甚至更強大的免費替代品。
這種現象揭示了 AI 行業的一個基本現實——在通用 agent 領域，頭部科技公司憑借其龐大的資源儲備和廣泛的用戶基礎，能夠以免費策略迅速占領市場，這使得初創企業幾乎難以與之抗衡。
易景陽認為，這種市場格局對初創企業提出了嚴峻挑戰。由于需要支付高昂的 API 使用費用，初創公司在開發通用 AI 產品時面臨著巨大的成本壓力，這種商業模式在長期競爭中明顯不具備可持續性。因此，他認為初創公司應該避開與科技巨頭在通用平臺層面的直接競爭，轉而深耕需要專業領域知識的垂直應用場景。
展望未來，易景陽表示，將持續關注那些兼具技術創新性和實際商業價值的 AI 發展方向。尤其是關注那些能夠將前沿技術與具體行業需求緊密結合的應用場景，他認為這將是初創企業在 AI 時代實現突破的關鍵路徑。
參考資料：
1.https://arxiv.org/pdf/2504.21370
2.https://arxiv.org/html/2412.21187v2
3.https://arxiv.org/abs/2501.19393
4.https://arxiv.org/abs/2503.04697

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

三星Galaxy Z Fold8折疊手機影像曝光：2億主攝+5000萬超廣角

零跑汽車成立金屬材料公司

“切斷糧草”！水稻病害防治有了新路徑

今天，光顧太陽系的第三顆星際彗星掠過地球，似乎確與前兩個星際訪客不同

力壓美英獨角獸，廣東AI語音模型Vocu V3奪全球榜首

3位武大00后，融資數千萬，要做智能體的“3D打印機”

全站最新

三星Galaxy Z Fold8折疊手機影像曝光：2億主攝+5000萬超廣角

零跑汽車成立金屬材料公司

“切斷糧草”！水稻病害防治有了新路徑

今天，光顧太陽系的第三顆星際彗星掠過地球，似乎確與前兩個星際訪客不同

熱門推薦

字節跳動 AI 手機合作方案曝光，免收 Token 分成開啟“讓利換入口”

OpenAI 財務風險引發熱議經濟學家認為其并非 “太大而不能倒”

無人貨運大變局!菜鳥擬入股九識智能，兩大“萬元機”巨頭欲整合業務

防范未成年人風險:OpenAI與Anthropic將推出AI年齡預測功能

三星Galaxy Z Fold8折疊手機影像曝光：2億主攝+5000萬超廣角

零跑汽車成立金屬材料公司

“切斷糧草”！水稻病害防治有了新路徑

今天，光顧太陽系的第三顆星際彗星掠過地球，似乎確與前兩個星際訪客不同

力壓美英獨角獸，廣東AI語音模型Vocu V3奪全球榜首

華為副總裁袁遠：AI時代需轉向“以數據為中心”

人形機器人企業集體擴產背后是機遇還是“不擴產就丟單”的焦慮？

3位武大00后，融資數千萬，要做智能體的“3D打印機”

東航接收并啟用全球航司首臺C919飛行模擬機

55歲三星“長公主”李富真露面，曾不顧反對嫁給其司機，2019年離婚時付給男方141億韓元

2025年度AI亂象調查丨直播間騙術升級，名人帶貨也現“偽人”出鏡