至頂網
OpenAI和Anthropic PBC這兩家領先的人工智能模型提供商今日同時推出了針對推理任務優化的新型大語言模型。
OpenAI發布的新算法gpt-oss-120b和gpt-oss-20b采用開源許可證。Anthropic則發布了其專有Claude Opus 4大語言模型的升級版本。該更新改進了大語言模型的編程能力,公司聲稱已經超越了競爭對手。
開源性能表現
OpenAI表示,gpt-oss-120b和gpt-oss-20b在多項推理任務中超越了同等規模的開源模型。前者擁有1170億個參數,后者包含210億個參數。兩個模型都能運行代碼、與數據庫等外部系統交互,并根據任務復雜度優化處理時間。
theCUBE Research聯合創始人兼首席分析師Dave Vellante評論道:"專有API護城河正在縮小;企業現在可以內部運行和優化模型。我們認為,差異化現在體現在工具、強化學習循環、防護措施以及最重要的數據上。"
運行gpt-oss-20b只需要一張16GB內存的顯卡。這意味著該模型足夠緊湊,可以在某些消費級設備上運行。OpenAI研究人員在今日的博客文章中寫道,該模型"非常適合設備端應用、本地推理或無需昂貴基礎設施的快速迭代"。
該公司的另一個新模型gpt-oss-120b在硬件效率方面有所妥協,但輸出質量更高。它可以在80GB內存的單張顯卡上運行。該算法提供了與o4-mini相當的性能,后者是OpenAI最新最先進的專有推理模型之一。
gpt-oss-120b和gpt-oss-20b都基于專家混合架構。專家混合模型由多個神經網絡組成,每個網絡都針對特定任務集進行了優化。當收到提示時,模型只激活最適合生成答案的神經網絡。
OpenAI的新模型具有兩個性能優化功能:分組多查詢注意力和旋轉位置嵌入。前者技術減少了算法注意力機制的內存使用,用于解釋用戶提示。旋轉位置嵌入則讓語言模型更好地處理長輸入。兩個模型都支持128,000個Token的上下文窗口。
OpenAI通過多步驟過程開發了gpt-oss-120b和gpt-oss-20b。首先,在主要包含科學技術主題英語文本的數據集上訓練它們。然后OpenAI進行了另外兩輪訓練,分別使用監督微調和強化學習。
監督微調使用包含解釋內容注釋的訓練數據集。強化學習則不使用注釋。后一種技術成本效益更高,因為它減少了開發人員組織數據集所需的時間。
Vellante表示:"無論OpenAI的意圖如何,開源權重推理模型使前沿模型能力民主化,但將價值對話推向企業智能體、專有數據、強化學習反饋效果和業務上下文的更高層面。我們認為,構建數字孿生能力的企業將編程最有價值的智能體;其他人將爭奪不斷便宜的API的更薄利潤。"
Claude Opus 4.1
在OpenAI最新產品更新的背景下,競爭對手Anthropic推出了名為Claude 4.1 Opus的新專有大語言模型。這是該公司旗艦Claude 4 Opus推理模型的升級版本。Anthropic在5月發布后者時將其描述為"世界上最好的編程模型"。
Claude Opus 4在SWE-bench Verified基準測試中得分72.5%,該基準用于測量大語言模型的編程能力。新的Claude Opus 4.1模型達到了74.5%。此外,Anthropic還改進了大語言模型的研究和數據分析能力。
Claude Opus 4.1今日在該公司Claude AI助手的付費版本中可用,也可通過其應用程序編程接口、Amazon Bedrock和Google Cloud的Vertex AI服務獲得。此次更新是Anthropic大語言模型產品線計劃增強系列中的第一個。公司預計在未來幾周內發布其他升級,并將其描述為"大幅擴展"。
Q&A
Q1:OpenAI發布的開源模型有什么特點?
A:OpenAI發布了gpt-oss-120b和gpt-oss-20b兩個開源推理模型。gpt-oss-20b只需16GB顯卡即可運行,適合消費級設備;gpt-oss-120b需要80GB顯卡,性能可比肩OpenAI專有模型o4-mini。兩者都能運行代碼、與外部系統交互,支持128,000個Token上下文窗口。
Q2:Claude Opus 4.1相比前一版本有哪些改進?
A:Claude Opus 4.1是Claude 4 Opus的升級版,在編程能力方面從72.5%提升到74.5%(SWE-bench Verified基準測試)。此外還改進了研究和數據分析能力。該模型可通過Claude AI助手付費版本、API、Amazon Bedrock和Google Cloud Vertex AI服務獲得。
Q3:這些新模型對企業有什么影響?
A:專家認為開源推理模型使前沿AI能力民主化,企業可以內部運行和優化模型,減少對專有API的依賴。差異化將體現在工具、數據和業務上下文上。構建數字孿生能力的企業將獲得最大價值,其他企業可能面臨更激烈的競爭。





京公網安備 11011402013531號