![]()
機器之心報道
機器之心編輯部
終于,OpenAI 的新發布還是來了。
雖然不是我們期待已久的 GPT-5,但也是「something big-but-small today.」
![]()
也就是開源新語言模型
要知道,這是近幾年來(自 GPT-2 以來),OpenAI 重新開源模型。
據在 OpenAI 任職研究科學家的清華校友翁家翌透露,從 2022 年 OpenAI 內部就討論模型開源,并曾數次接近「開源」目的,但直到今天才實現。
![]()
這次還一下開源了兩個,都是推理模型。
![]()
GitHub 地址:https://github.com/openai/gpt-osshugging face 地址:https://huggingface.co/openai/gpt-oss-20bhugging face 地址:https://huggingface.co/openai/gpt-oss-120b博客地址:https://openai.com/index/introducing-gpt-oss/
Sam Altman 聲稱,gpt-oss 性能與 o4-mini 水平相當,并且可以在高端筆記本電腦上運行(WTF!!)(還有一個較小的可以在手機上運行)。
![]()
兩款開源模型與 o3、o4-mini 的跑分結果比較如下:
![]()
總結一波,這兩個開源模型的亮點包括:
寬松的 Apache 2.0 許可證:自由構建,不受版權限制或專利風險 - 非常適合實驗、定制和商業部署。可調整的推理力度:根據具體用例和延遲需求輕松調整推理力度(低、中、高)。完整的思維鏈(CoT):完全可訪問模型的推理過程,從而更輕松地進行調試并增強對輸出的信任。不計劃向終端用戶展示。可微調:通過參數微調,完全可根據特定用例定制模型。Agentic 功能:使用模型的功能進行函數調用、網頁瀏覽、Python 代碼執行和結構化輸出。原生 MXFP4 量化:模型使用原生 MXFP4 精度針對 MoE 層進行訓練,使得 gpt-oss-120b 可在單個 H100 GPU 上運行,gpt-oss-20b 模型可在 16GB 內存內運行。
OpenAI 還做了一個 playground ,讓開發者可以在網頁端簡單嘗試這兩個開源模型,感興趣的讀者可以去體驗嘗試。
![]()
試用地址:https://www.gpt-oss.com/
在過去的幾個小時,海外 AI 社區已經炸開了,紛紛開始下載嘗試新模型,以至于 Hugging Face 的 CTO 只能在線請求大家不要全都去下載,服務器要崩了!
![]()
接下來,就讓我看看下這兩個最新開源模型的技術細節。
開源模型新高度
作為兩個 SOTA 級別的開源語言模型,gpt-oss-120b 和 gpt-oss-20b 可以提供強大的實際應用性能,并具有低成本優勢。
兩款模型在推理任務上超越了同等規模的開源模型,展示了強大的工具使用能力,并且經過優化,能夠高效部署在消費級硬件上。訓練過程中結合了強化學習以及受 OpenAI 內部最先進模型啟發的技術,包括 o3 和其他前沿模型。
其中,gpt-oss-120b 模型在核心推理基準測試上與 o4-mini 幾乎持平,同時能夠在單個 80GB GPU 上高效運行。gpt-oss-20b 模型在常見基準測試中表現與 o3-mini 相似,且僅需 16GB 內存即可運行,適用于邊緣設備,非常適合本地推理、設備端使用或在沒有高昂基礎設施的情況下快速迭代。
兩款模型在工具使用、few-shot 函數調用、CoT 推理以及 HealthBench 測試中表現非常出色,甚至超越了 o1 和 GPT-4o 等專有模型。
兩款模型還具有非常強的系統兼容性,適用于需要卓越指令跟隨、工具使用(如網頁搜索或 Python 代碼執行)和推理能力的智能體工作流中,并且能夠根據任務的復雜性來調整推理力度,從而適應不需要復雜推理和 / 或針對非常低延遲最終輸出的任務。兩款模型完全可定制,提供完整的 CoT,并支持結構化輸出。
當然,安全性是 OpenAI 發布所有模型的基礎,尤其對開源模型至關重要。因此,除了全面的安全訓練和評估測試外,OpenAI 還基于自身的準備框架(Preparedness framework)測試了 gpt-oss-120b 的對抗性微調版本,引入了額外的評估層。從結果來看,gpt-oss 模型在內部安全基準測試中的表現與 OpenAI 的前沿模型相當,并提供與其近期專有模型相同的安全標準。
OpenAI 已經與 AI Sweden、Orange 和 Snowflake 等早期合作伙伴合作,了解兩款開源模型在現實應用中的情況,包括將它們托管在本地以確保數據安全,以及在專業數據集上進行微調。
預訓練與模型架構
gpt-oss 模型采用了 OpenAI 最先進的預訓練和后訓練技術,尤其關注推理、效率和在各種部署環境中的現實可用性。
兩款模型均采用 Transformer 架構,并利用專家混合(MoE)來減少處理輸入所需的活躍參數數量。其中,gpt-oss-120b 每個 token 激活 5.1B 參數,而 gpt-oss-20b 則激活 3.6B 參數。兩款模型的總參數分別為 117B 和 21B
此外,兩款模型采用交替密集和局部帶狀稀疏注意力模式,類似于 GPT-3。為了提高推理和內存效率,模型還使用了分組多查詢注意力,組大小為 8。同時利用旋轉位置編碼(RoPE)進行位置編碼,并原生支持最長 128k 的上下文長度
![]()
在訓練集上,OpenAI 在一個主要是英文的文本數據集上訓練了兩款模型,重點關注 STEM、編程和常識類內容,并使用一個比 o4-mini 和 GPT?4o 所使用更為廣泛的分詞器(tokenizer)對數據進行分詞 ——o200k_harmony,同樣也將其開源
后訓練
OpenAI 聲稱開源模型采用了與 o4-mini 相似的后訓練流程,包含監督微調和高計算強化學習階段。此外,OpenAI 還訓練模型在輸出答案前先進行思維鏈推理和工具調用。通過采用與 OpenAI 專有推理模型相同的技術,這些模型在后訓練后展現出卓越的能力。
與 API 中的 OpenAI o 系列推理模型類似,這兩款開源模型支持「低、中、高」三檔推理強度調節,開發者只需在系統消息中添加一行指令即可輕松設置,實現延遲與性能的平衡。
性能評估
OpenAI 在標準學術基準上對比測試了 GPT-OSS-120B/20B 與 o3、o3-mini 及 o4-mini 等 OpenAI 推理模型,涵蓋編程、競賽數學、醫療和智能體工具使用等維度:
一系列測試結果表明,GPT-OSS-120B 在編程競賽(Codeforces)、綜合問題解答(MMLU 和 HLE)及工具調用(TauBench)方面超越 o3-mini,達到甚至超過 o4-mini 水平
在醫療查詢(HealthBench)和競賽數學(AIME 2024&2025)領域表現更優于 O4-mini。盡管體積小巧,GPT-OSS-20B 在這些測試中仍與 o3-mini 持平甚至超越,尤其在競賽數學和醫療領域表現更為突出。
![]()
CodeforcesCompetition 編程基準
![]()
人類最后考試 —— 跨學科的專家級問題
![]()
HealthBench 基準測試
![]()
AIME 2024 和 AIME 2025 基準(使用工具)
![]()
GPQA Diamond(不使用工具)和 MMLU 基準
![]()
AIME 數學競賽
![]()
GPQA Diamond(使用工具)博士級別科學問題
完整評估結果如下表所示:
![]()
思維鏈
OpenAI 近期的研究表明,只要模型未經過直接監督對齊其思維鏈,監控推理模型的思維鏈過程有助于檢測異常行為。這一觀點也得到業內其他研究者的認同。
因此在 GPT-OSS 系列模型的訓練中未對思維鏈施加任何直接監督。
OpenAI 認為,這對于監測模型異常行為、欺騙性輸出及濫用風險至關重要。通過發布具備無監督思維鏈能力的開源模型,希望為開發者和研究人員提供研究及實現自有思維鏈監控系統的機會。
更多的模型細節和評估結果請參考模型卡(model card):
![]()
模型卡地址:https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf
最后,在 GPT-5 遲遲未發布的情況下,你覺得 OpenAI 能否憑這兩個開源模型挽尊呢?與國內開源模型比誰更香?歡迎已經用上的讀者們討論。





京公網安備 11011402013531號