就在剛才,DeepSeek在官方微信群發(fā)出通知,線上模型版本已升級(jí)至 V3.1,上下文長(zhǎng)度拓展至128k。
DeepSeek V3.1就是DeepSeek V3在2025年3月25號(hào)更新的0324版本,相較前代模型,其推理能力、上下文處理能力和多語(yǔ)言支持上都得到了提升。
根據(jù)測(cè)試,這個(gè)模型提升了處理復(fù)雜任務(wù)時(shí)的推理能力。其多步推理表現(xiàn)相較于前一版本提高了43%,能為數(shù)學(xué)計(jì)算、代碼生成和科學(xué)分析等領(lǐng)域提供更準(zhǔn)確的解決方案。
128K的上下文長(zhǎng)度換算成漢字,大致可以處理10萬(wàn)到13萬(wàn)漢字,這個(gè)長(zhǎng)度相當(dāng)于一部完整的中長(zhǎng)篇小說。比如老舍的《駱駝祥子》和余華的《活著》。
在多語(yǔ)言支持方面,V3.1版本能處理超過100種語(yǔ)言,尤其對(duì)亞洲語(yǔ)言和資源較少的語(yǔ)種進(jìn)行了明顯的能力優(yōu)化。這一改進(jìn)有助于該技術(shù)的全球化應(yīng)用,并支持更好的跨文化內(nèi)容生成。
最為關(guān)鍵的是,通過訓(xùn)練技術(shù)和模型架構(gòu)的改進(jìn),該模型產(chǎn)生不實(shí)信息(即“幻覺”)的情況減少了38%,從而提高了輸出信息的整體準(zhǔn)確性與可靠性。
DeepSeek V3.1擁有5600億參數(shù),并在多樣化的數(shù)據(jù)集上進(jìn)行過微調(diào)。它具備處理文本、代碼和圖像的多模態(tài)能力,同時(shí)對(duì)推理過程進(jìn)行了優(yōu)化,以縮短響應(yīng)時(shí)間。
不過我們最關(guān)心的DeepSeek R2仍然遙遙無期。2025年4月27日,DeepSeek官方宣布,R2原定為2025年5月發(fā)布,而且官方還表示甚至可以在更早的時(shí)間發(fā)布。但時(shí)至今日,DeepSeek并沒有釋出R2相關(guān)的信息,同時(shí)外媒報(bào)道DeepSeek R2在訓(xùn)練時(shí)由于芯片的問題導(dǎo)致發(fā)生嚴(yán)重錯(cuò)誤,因此可能其發(fā)布還會(huì)再晚一些。(作者/苗正)





京公網(wǎng)安備 11011402013531號(hào)