
作者 | 陳駿達
編輯 | 李水青
時隔6年,OpenAI再次開源語言模型!
智東西8月6日報道,今天,OpenAI終于放出其傳聞已久的開源模型:gpt-oss-120b和gpt-oss-20b。這兩款模型均采用MoE架構,與DeepSeek的多款模型類似。
本次OpenAI開源的模型最大亮點之一是其部署的高效性。gpt-oss-120b能夠在單個80GB GPU上高效運行,gpt-oss-20b只需16GB內存即可在邊緣設備上運行,可為端側AI提供本地模型選擇。兩款模型均采用MXFP4原生量化,其中,gpt-oss-120b在H100 GPU上歷經210萬卡時訓練而成,20b版本的訓練用量為前者的1/10。
在多項基準測試中,gpt-oss-120b的表現與OpenAI o4-mini幾乎持平,gpt-oss-20b則與OpenAI o3-mini相似。工具使用、小樣本函數調用也是其強項之一。

面向Agent場景,這兩款模型已經與OpenAI的Responses API兼容,可用于Agent工作流,具備較好的指令遵循能力、網頁搜索或Python代碼執行等工具使用能力以及推理能力,還支持調整模型推理長度。
自2019年的GPT-2以來,OpenAI已經長期未開源語言模型,但曾經開源Whisper語音模型等項目。OpenAI語言模型再度開源的消息發布后,雖有不少網友發文慶祝,但也有人質疑其開源程度并不徹底,強化學習的技術細節、預訓練的數據構成、數據來源等信息都未披露,讓開源社區難以從中借鑒。
同時,OpenAI在所有已公布基準測試中,都未將gpt-oss系列與DeepSeek、Qwen、Kimi等開源模型進行比較,也沒有和Claude、Grok、Gemini等閉源競爭對手打擂臺。
目前,已有至少14家部署平臺支持了OpenAI的最新開源模型,包括Azure、Hugging Face、vLLM、Ollama、llama.cpp、LM Studio、AWS、Fireworks、Together AI、baseten、Databricks、Vercel、Cloudflare和OpenRouter等。
在硬件方面,英偉達、AMD、Cerebras和Groq等至少4家企業宣布了對gpt-oss系列的支持,Cerebras更是將gpt-oss-120b的推理速度拉到了每秒超3000 tokens,創下OpenAI模型的最快紀錄。
目前,gpt-oss-120b和gpt-oss-20b已上線開源托管平臺Hugging Face,普通用戶則可以在OpenAI打造的體驗網站中直接免費使用。
開源地址:
https://huggingface.co/openai/gpt-oss-120b
https://huggingface.co/openai/gpt-oss-20b
體驗鏈接:
https://gpt-oss.com/
一、推理速度成核心亮點,網友質疑沒和DeepSeek、Qwen、Kimi對比
OpenAI開源后,已有不少網友體驗上了這兩款模型,智東西也進行了一手體驗。
有許多網友都表達了一個直觀感受——太快了!

據智東西一手體驗,這款模型在思考一般性問題時,僅會進行5秒左右的思考,并迅速輸出結果。

同樣的問題交由其他推理模型,思考過程耗時18秒。

在編程場景,gpt-oss-120b展現出一定規劃能力,會在項目開始前給出結構預覽和關鍵技術點。

其開發的2048小游戲運行正常,UI選用了較為簡潔的風格。

智東西讓gpt-oss-120b挑戰了一下Claude擅長的SVG圖繪制,并給予gpt-oss-120b高推理預算,其生成結果如下,略顯簡陋。

OpenAI CEO Sam Altman稱,gpt-oss-120b可以在高端筆記本上運行,而小尺寸的20b版本能在手機上運行。

不過,AI創企Private LLM的創始人Thilak Rao認為,目前,還沒有任何手機能運行20b的AI模型,即便是經過4位量化。

有網友曬出了本地部署效果。20b版本的gpt-oss可以直接本地部署,無需經過量化,能在在搭載M3 Pro芯片的Mac上,實現接近24 tokens每秒的高速本地部署體驗。gpt-oss-20b開發出了一個貪吃蛇游戲,一次就成功了。

不過,也有網友吐槽,OpenAI的此次“開源”并不徹底。權重是公開的,但訓練過程不公開,數據源也不公開,強化學習方法也不公開,可以下載模型,但無法復現。

OpenAI也沒有曬出gpt-oss系列與其他開源、閉源模型的任何基準測試比較,有網友在評論區詢問,gpt-oss系列與DeepSeek R1、Kimi K2和Qwen相比究竟如何?
二、主打推理、高效率,120b版本性能比肩o4-mini
在博客中,OpenAI介紹了這一模型的部分技術細節。本次的gpt-oss系列注重推理能力、效率以及在各種部署環境中的實際可用性。
采用MoE架構就是實現這一目標的手段之一。gpt-oss-120b每個token激活51億個參數,而gpt-oss-20b激活36億個參數。這兩個模型分別有1170億和210億個總參數。這些模型使用交替的密集和局部帶狀稀疏注意模式,類似于GPT-3。
為了提高推理和內存效率,gpt-oss系列模型還使用了分組多查詢注意力模式,每個組的大小為8。使用旋轉位置嵌入(RoPE)進行位置編碼,并且原生支持高達128k的上下文長度。

數據方面,gpt-oss使用了一個以英文為主的純文本數據集,數據集的重點是STEM(科學、技術、工程、數學)、編程以及常識。OpenAI還同步開源了其使用的分詞器(tokenizer)。
gpt-oss的后訓練過程與o4-mini類似,包括監督微調階段(SFT)和使用大量算力的強化學習階段(RL)。
與API中的OpenAI O系列推理模型類似,這兩款開源模型支持低、中、高三種推理強度,在延遲和性能之間進行權衡。開發者只需在系統消息中輸入一句話,即可設置推理強度。
基準測試中,gpt-oss-120b在競賽級別編程(Codeforces)、通用問題求解(MMLU和HLE)以及工具調用(TauBench)方面均優于OpenAI o3-mini,并比肩甚至超越了OpenAI o4-mini。

此外,它在健康相關查詢(HealthBench)和競賽數學(AIME 2024和2025)方面的表現甚至優于o4-mini。

盡管規模較小,gpt-oss-20b在同樣的評估中也比肩甚至超越了OpenAI o3-mini,甚至在競賽數學和健康方面也勝過后者。
OpenAI稱,gpt-oss系列采用無監督思維鏈,讓開發者和研究人員有機會研究和實現他們自己的思維鏈監控系統。但OpenAI也建議,開發者不應在其應用程序中直接向用戶展示思維鏈。它們可能包含令人產生幻覺或有害的內容。
三、多家芯片廠商即刻適配,最高實現每秒3000 tokens推理
gpt-oss-120b和gpt-oss-20b采用了寬松的Apache 2.0許可證。開源后,已有不少GPU、AI芯片廠商和云服務廠商即刻宣布適配。
英偉達官方發推稱,gpt-oss模型面向英偉達的全棧架構進行優化,并在Blackwell和RTX GPU上實現了最佳的推理效果。

AMD也宣布支持OpenAI開源模型在AMD的AI芯片與消費級處理器上使用。

AI芯片創企則爭相曬出自家的每秒token數。在Groq的芯片上,gpt-oss的推理速度最高可達1200 tokens每秒。

Cerebras則稱該公司創造了新的速度記錄,gpt-oss-120b版本的推理速度達3000 tokens每秒,成為史上最快的OpenAI模型。

結語:OpenAI再度開源,開源社區能從中獲益嗎?
今年以來,由中國大模型廠商們掀起的開源浪潮席卷全球。作為全球頭部模型廠商,OpenAI本次時隔6年再度開源語言模型,對OpenAI和產業而言意義重大。
OpenAI在過去很長一段時間里都因“名不副實”而保受詬病,本次放出兩款開源模型,可視為對這一質疑的回應。從實際體驗來看,OpenAI的兩款模型都主打輕量化部署,并已經與云廠商、芯片廠商展開深度合作,或將促使更多企業和開發者使用這一模型。
不過,OpenAI的開源并不徹底,對技術細節的保留導致開源社區暫時無法從中獲取有益的參考。這一模型對開源社區的價值,仍有待觀察。





京公網安備 11011402013531號