


在AI界,一款源自中國的開源大模型近期引發了國內外廣泛關注。這款名為DeepSeek-V3的模型,由新興AI企業DeepSeek研發推出,以其卓越性能和低廉的訓練成本,在業界掀起了波瀾。
DeepSeek-V3的技術論文詳細闡述了該模型的研發過程。論文指出,DeepSeek-V3的參數規模從前代的2360億提升至6710億,在14.8T tokens的數據集上進行了預訓練,上下文長度可達128K。評測結果顯示,DeepSeek-V3的性能已成為目前最強大的開源模型之一,且在多個主流評測基準上,其表現可媲美GPT-4o和Claude-3.5-Sonnet等領先的閉源模型。
除了安德烈,阿里前副總裁賈揚清、metaAI科學家田淵棟、英偉達高級研究科學家Jim Fan等多位AI領域的大牛,也對DeepSeek-V3表示了贊賞。有網友甚至認為,這是“全球最佳開源大模型”,并預測這將推動AGI(通用人工智能)的實現比預期更早且成本更低。
DeepSeek-V3之所以能引起AI大牛的關注,很大程度上是因為其低廉的訓練成本。據悉,該模型僅用了2000多張GPU,訓練成本不到600萬美元,遠低于OpenAI、meta等在萬卡規模上訓練的模型成本。這一成本效益比,讓DeepSeek-V3在業界脫穎而出。
在知識能力方面,DeepSeek-V3在MMLU-Pro和GPQA-Diamond等基準測試中超越了阿里、meta等所有開源模型,并領先GPT-4o,但略遜于Claude-3.5-Sonnet。而在數學、代碼和推理能力方面,DeepSeek-V3在MATH500、AIME2024及Codeforces等多個主流基準測試中,不僅碾壓了阿里和meta的最新開源模型,還超越了GPT-4o和Claude-3.5-Sonnet。
不過,值得注意的是,DeepSeek-V3在某些方面還存在局限性。例如,其英文能力還落后于GPT-4o和Claude-Sonnet-3.5,同時部署要求較高,對小型團隊不太友好,且生成速度還有提升潛力。但DeepSeek在論文中表示,隨著更先進硬件的開發,這些局限性有望得到解決。





京公網安備 11011402013531號