21世紀經濟報道記者 陳歸辭
在DeepSeek-V3推出5個月后,DeepSeek-V3低調發布升級版模型DeepSeek-V3.1。
8月21日下午,DeepSeek 正式發布 DeepSeek-V3.1(簡稱“V3.1”),稱其為“邁向 Agent 時代的第一步”。8月19日晚間,DeepSeek 小助手于官方群內宣布線上模型版本已升級至V3.1,引發廣泛關注,目前 V3.1 在HuggingFace趨勢榜排名已沖上第二。
據DeepSeek方面介紹,V3.1的升級主要包含三大變化:混合思考模式、更高的思考效率和更強的Agent(智能體)能力。
V3.1采用混合推理架構,一個模型同時支持思考模式與非思考模式。與之前的版本相比,引人注目的是,V3.1 將上下文由原有的64k擴展至128k。這意味著其能夠一次性處理的上下文長度顯著提升。
V3.1也具有更高的思考效率。DeepSeek 測試結果顯示,經過思維鏈壓縮訓練后,V3.1-Think 在輸出 token 數減少 20%-50% 的情況下,各項任務的平均表現與 R1-0528 持平。同時,V3.1 在非思考模式下的輸出長度也得到了有效控制,相比于 DeepSeek-V3-0324 ,能夠在輸出長度明顯減少的情況下保持相同的模型性能。
另外值得注意的是,通過后訓練優化,V3.1 在工具使用與智能體任務中的表現有較大提升。
編程任務方面,DeepSeek測試結果顯示,在代碼修復測評 SWE 與命令行終端環境下的復雜任務(Terminal-Bench)測試中,DeepSeek-V3.1 相比之前的 DeepSeek 系列模型有明顯提高。
從業內實測反饋來看,V3.1在AiderPolyglot多語言編程測試中,拿下了71.6%的高分,超越了Claude 4 Opus和DeepSeek R1等模型。并且,其完成每次完整編程任務的成本僅1.01美元,為專有系統的六十分之一。
搜索任務方面,DeepSeek測試結果顯示,V3.1在多項搜索評測指標上取得了較大提升。在需要多步推理的復雜搜索測試(browsecomp)與多學科專家級難題測試(HLE)上,DeepSeek-V3.1 性能已大幅領先 R1-0528。
V3.1 在多語言支持能力上也有顯著優化,目前能處理超過100種語言,尤其優化了亞洲語言和資源較少語種的運用。





京公網安備 11011402013531號