金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
沒能等到GPT-5,但OpenAI在深夜卻很突然地open了一下——
開源兩個推理模型:gpt-oss-120b和gpt-oss-20b。
![]()
要知道,上一次OpenAI開源模型還是6年前,也就是2019年的GPT-2。
而這次的名字也是非常的直接,gpt-oss,即Open Source Series,意思就是“開源系列”。
它們的亮點如下:
gpt-oss-120b:1170億參數(MoE架構,激活參數約51億),可在單張80GB GPU上運行,性能接近閉源的o4-mini。gpt-oss-20b:210億參數(Moe架構,激活參數約36億),可在16GB內存的消費級設備上運行,性能接近o3-mini。
并且它倆均采用Apache 2.0許可證,允許商用無需付費或授權。
從性能角度來看,gpt-oss已經達到了開源模型里推理性能的第一梯隊,但在代碼生成和復雜推理任務中仍略遜于閉源模型(如GPT-o3和o4-mini)。
![]()
在模型發布的第一時間,Sam Altman在自己的社交平臺上也道出了這倆模型的“價值”:
可以在本地筆記本(20b的可以在手機上)運行;耗資數十億美元的研究成果。
![]()
并且蘇媽(Lisa Su)也是幾乎同時出來為Altman站臺,表示“很榮幸成為第0天的合作伙伴”。
![]()
不過有意思的是,在官方HuggingFace介紹中,提及的卻是英偉達的H100……
![]()
先看效果
在開源動作一個小時后,OpenAI官方還放出了一個實測效果的視頻。
![]()
這次講解的人員,分別是在OpenAI負責開發者體驗的Dom和Zhaohan:
![]()
他倆是在一臺120G的Macbook Pro上進行的測試,借助Ollama在本地運行120B的gpt-oss(搭了2塊H100)。
二人先小試牛刀,測試了一下gpt-oss在思維鏈中調用工具的能力,即搜索+Python解釋器。
他們在開啟Browser Tool和Python Tool后,在本地提問:
舊金山天氣如何?

可以看到,本地的gpt-oss-120b穩穩地輸出了正確的結果。
在第二個測試例子中,他們讓2個非常大的數字相乘。
在這個過程中,可以看到gpt-oss一次又一次地調用Python工具,雖然中間有出錯的情況,但最終給到了正確的答案。
![]()
接下來,二人把網直接斷掉,在本地搞了一個射擊類的小游戲:

同樣是在斷網的情況下,他倆又經過一番操作,將游戲中的圖標變成了草莓的樣式:

整體來看,實測的體感還是比較絲滑的,并且生成速度達到了40-50 tokens/s。
完整體驗視頻如下:
![]()
視頻地址:https://mp.weixin.qq.com/s/bIaUXw9XWR2Sb4dy4i37_Q
再看性能
除了實測效果之外,OpenAI也一道發布了gpt-oss相關的技術博客。
整體來看,這兩個模型在工具使用、少樣本函數調用、鏈式思考推理(如Tau-Bench智能評估套件的結果所示)以及HealthBench上表現強勁,甚至超越了包括OpenAI o1和GPT?4o在內的專有模型。
預訓練與模型架構
gpt-oss模型使用的OpenAI最先進的預訓練和后訓練技術進行訓練,特別關注推理、效率和在廣泛部署環境中的實際可用性。
雖然OpenAI已經公開了包括Whisper和CLIP在內的其他模型,但gpt-oss模型是自GPT?2以來的第一個開放權重語言模型。
每個模型都是一個Transformer,利用專家混合(MoE)來減少處理輸入所需的活躍參數數量。
gpt-oss-120b每個token激活5.1B個參數,而gpt-oss-20b激活3.6B個參數。這些模型分別具有117b和21b的總參數。
這些模型使用類似GPT?3的交替密集和局部帶狀稀疏注意力模式。
為了提高推理和內存效率,模型還使用分組多查詢注意力,組大小為8。團隊使用旋轉位置嵌入(RoPE)進行位置編碼,并原生支持最長128k的上下文長度。
![]()
團隊在主要由英語文本組成的數據集上訓練這些模型,重點關注STEM領域、編程和通用知識。
OpenAI使用一個超集(superset)分詞器對數據進行分詞,該分詞器基于OpenAI o4-mini和GPT?4o使用的分詞器:o200k_harmony,今天也將開源這一分詞器。
后訓練階段
這些模型采用與o4-mini相似的流程進行了后訓練,包括有監督微調階段和高算力的強化學習階段。
OpenAI的目標是使模型符合OpenAI 模型規范的要求,并在生成答案之前學會使用鏈式思維(CoT)和工具調用。
在后訓練過程中,團隊采用了與OpenAI最先進專有推理模型相同的技術,使這些模型展現出了卓越的能力。
與API中OpenAI o系列推理模型類似,這兩個開源權重模型支持三種推理強度——低、中、高——在延遲與性能之間實現權衡。
開發者可以通過系統提示語中的一句話,輕松設定所需的推理強度。
評估結果
團隊對gpt-oss-120b和gpt-oss-20b進行了標準學術基準測試評估,衡量它們在編程、競賽數學、健康問答和Agent工具使用等方面的能力,并與OpenAI的其他推理模型(包括 o3、o3-mini 和 o4-mini)進行了對比。
在競賽編程(Codeforces)、通用問題解決(MMLU和HLE)以及工具調用(TauBench)方面,gpt-oss-120b的表現優于OpenAI的o3-mini,并達到或超過了o4-mini的水平。
![]()
在健康相關問答(HealthBench)和競賽數學(AIME 2024 與 2025)上,gpt-oss-120b的表現甚至超越了o4-mini。
![]()
![]()
![]()
盡管體積較小,gpt-oss-20b在同樣的評估中也達到了或超過了OpenAI o3-mini的水平,尤其在競賽數學和健康問答方面表現更加出色。
![]()
![]()
![]()
![]()
思維鏈
OpenAI最近的研究表明,在模型的鏈式思維(CoT)未經過直接監督對齊訓練的前提下,監測其推理過程的CoT有助于識別不當行為。
遵循自發布OpenAI o1-preview以來的一貫原則,團隊在gpt-oss模型上并未對CoT進行任何形式的直接監督。
OpenAI認為,這一點對于監測模型的不當行為、欺騙行為及濫用情況至關重要。
團隊希望,通過發布一個未經過監督對齊的開源模型,能夠為開發者和研究人員提供機會,自主研究并實現各自的 CoT 監測機制。
開發者不應在其應用中將模型的鏈式思維內容直接展示給用戶。
因為這些內容可能包含虛構或有害信息,其中的語言可能不符合OpenAI的安全標準,甚至可能泄露模型被明確指示不得在最終輸出中包含的信息。
OpenAI為什么要開源?
在技術博客的最后,OpenAI也對今天開源的動作,做出了解釋。
在OpenAI看來,gpt-oss-120b和gpt-oss-20b的發布,是開源權重模型向前邁出的重要一步。
以其體量,這兩款模型在推理能力和安全性方面都實現了實質性提升。
開源模型是對OpenAI托管模型的重要補充,為開發者提供了更豐富的工具選項,加速前沿研究,推動創新,并支持更安全、透明的AI開發,適用于更廣泛的使用場景。
這些開源模型還降低了新興市場、資源受限行業以及中小型組織進入AI的門檻——這些組織可能缺乏采用專有模型所需的預算或靈活性。
如今,全球更多人可以借助這些強大、易獲取的工具進行建設、創新,并為自己和他人創造新的機會。開放獲取這些在美國開發的高能力模型,有助于推動AI發展走向更加民主化。
一個健康的開源模型生態,是實現AI普及并惠及全人類的重要維度之一。
One More Thing:
雖然但是……網友們最最最最關心的似乎還是——
GPT-5呢????
![]()
技術博客地址:
https://openai.com/index/introducing-gpt-oss/
HuggingFace地址:
https://huggingface.co/openai/gpt-oss-120b
GtiHub地址:
https://github.com/openai/gpt-oss





京公網安備 11011402013531號