作者/第一新聲 雷晶
8月6日凌晨,OpenAI發布了兩款開源大語言模型gpt-oss-120b和gpt-oss-20b。這是自2019年開源GPT-2以來,OpenAI首次發布開源模型。
OpenAI時隔六年再推開源大語言模型,釋放技術普惠信號。這一舉動無疑在全球人工智能領域投下一枚重磅炸彈,也讓國內大模型競爭格局面臨新的變數。
華麗回歸 技術的偉大勝利?
據官方介紹,這兩款模型均為純文本語言模型,在文本處理、代碼生成、數學問題求解等領域表現強勁。gpt-oss-120b總參數量為1170億,激活參數為51億,能夠在單個80GB的GPU上運行,專為生產環境、通用應用和高推理需求的用例設計,既可以部署在數據中心,也能在高端臺式機和筆記本電腦上運行。
而gpt-oss-20b總參數量為210億,激活參數為36億,專門針對更低延遲、本地化或專業化使用場景優化,在16GB的GPU上就能運行,這意味著大多數現代臺式機和筆記本電腦都能駕馭。
在模型架構上,二者均采用了Transformer架構,并融入專家混合(MoE)設計,以此減少處理輸入時激活參數量,提升推理與內存效率。它們還借鑒了GPT-3的設計理念,采用交替的密集注意力和局部帶狀稀疏注意力模式,使用分組多查詢注意力機制以及旋轉位置編碼,原生支持128k上下文。
訓練數據上,則重點聚焦于STEM、編程和通用知識領域,并使用o200k_harmony分詞器進行數據分詞,該分詞器是OpenAI o4-mini和GPT-4o所用分詞器的超集,也于此次同步開源。
除了性能強勁,OpenAI為這兩款模型賦予了諸多實用特性。
其采用寬松的Apache 2.0許可證,開發者可自由用于構建,無copyleft限制或專利風險。任何消費者、開發者或企業可免費下載模型,進行參數級微調以適配特定用例,并用于商業服務或創收,無需向OpenAI支付費用,便于實驗、定制和商業化部署。
模型具備可配置的推理強度,能依據用戶具體用例和延遲需求,輕松調整推理投入程度。同時支持完整的思維鏈,可完整訪問模型的推理過程,便于開發者調試并提升輸出結果的可信度,還支持參數級微調,開發者能夠根據特定用例對模型進行深度定制。
另外,模型具備智能體能力,可利用原生的函數調用、網頁瀏覽、Python代碼執行和結構化輸出等功能,進一步拓展應用場景。
本次開源的gpt-oss支持本地運行,無需連接網絡,數據也不必上傳到云端,這一特性能夠滿足金融、醫療等受嚴格監管行業對數據隱私的要求。
但值得一提的是,這次開源并不徹底,這兩款模型屬于開放權重(open-weight)大語言模型,不提供訓練數據和完整訓練代碼。
OpenAI的開源或許是對市場競爭壓力的回應。當前,全球AI市場競爭激烈,新興力量崛起迅速,在這樣的環境下開源成為重要手段,可以吸引更多開發者,完善其生態系統。
受到沖擊,國內大模型格局或將迎來變局
在OpenAI開源之前,國內的大模型開源早已進行得如火如荼。
近幾個月來,騰訊、智譜AI、昆侖萬維、阿里巴巴、月之暗面等頭部企業密集發布新一代開源大模型,將AI開源戰場推至前所未有的熱度。
百度文心早在6月開源ERNIE-4.5系列,覆蓋0.3B至47B參數規模,以中文多模態能力見長,在C-eval等基準測試中超越GPT-416。
騰訊混元則在8月4日宣布開源四款輕量級模型0.5B、1.8B、4B、7B,覆蓋從端側到云端場景,消費級顯卡即可運行,并適配手機、平板、智能座艙等低功耗設備。其核心創新包括256K長上下文窗口,可處理40萬漢字、雙腦協作架構,即快腦即時響應、慢腦深度推理,以及強化Agent能力。
阿里巴巴的通義千問(Qwen)系列也在持續迭代。7月剛推出Qwen3推理模型,可原生支持256K上下文處理能力,可應對更長文本、構建更深的推理鏈,自動啟用多步推理,無需用戶手動切換模式。8月通義千問系列又推出了圖像生成基礎模型Qwen-Image,主打復雜文本渲染能力,能在不同場景中,準確地生成不同語種、風格的文字,甚至可以寫毛筆字書法,或是直接生成帶有文本和圖像的PPT頁面。
智譜AI在8月3日開源GLM-4.5(355B MoE)及輕量版GLM-4.5-Air(106B),主打智能體原生架構與低成本推理(API成本低至0.8元/百萬tokens),48小時內登頂Hugging Face趨勢榜。
除傳統巨頭外,垂直領域企業表現也相當活躍。
昆侖萬維開源多模態模型Skywork-R1V3-38B與輕量圖文生成模型Skywork-UniPic-1.5B,入選中國AI開源16強。字節跳動發布多語言翻譯模型Seed-X-Instruct-7B與通用多模態模型Tar-7B。月之暗面推出數學證明專精模型Kimina-Prover-72B,其基礎模型Kimi-K2躋身Chatbot Arena全球前五。螞蟻集團則聚焦金融場景,開源數據集Agentar-DeepFinance及輕量多模態模型Ming-Lite-Omni-1.5B。
據Hugging Face中國社區統計,7月單月16家機構共開源31個模型及工具,覆蓋文本、圖像、3D生成等全模態場景。
如今,OpenAI攜gpt-oss-120b和gpt-oss-20b兩款開源模型強勢入局,無疑為國內大模型開源競爭格局帶來巨變。
從積極方面看,其開源行為為國內企業提供了學習借鑒先進技術的契機,通過研究OpenAI模型架構、訓練方式等,國內企業可以優化自身模型,實現技術升級。
然而,挑戰也隨之而來。OpenAI憑借其知名度與技術領先形象會吸引部分國內開發者與用戶資源。國內企業如何充分發揮本地化優勢成為亟待解決的課題。
這場全球性的大模型開源競賽才剛剛開始。





京公網安備 11011402013531號