Kimi K2 Thinking的發(fā)布,對(duì)于月之暗面而言,就像是《基督山伯爵》里那座名為蒙特克里斯托的寶藏島,曾被困在伊夫堡的那個(gè)“人”回來(lái)了,而且?guī)е粋€(gè)讓世界措手不及的計(jì)劃。
在年末預(yù)計(jì)發(fā)布的Gemini 3和GPT-5.1,以及DeepSeek的新模型之前,中國(guó)大模型廠商月之暗面先拿出了里程碑之作——Kimi K2 Thinking。
該如何形容Kimi K2 Thinking的價(jià)值?
或許HuggingFace聯(lián)合創(chuàng)始人 Thomas Wolf的評(píng)價(jià),反映出大多數(shù)人的心聲,“這是又一個(gè)‘DeepSeek’時(shí)刻么,開源再次超過(guò)閉源。”
彼時(shí),開源的DeepSeek R1超過(guò)OpenAI閉源模型旗艦?zāi)P蚾1,如今,Kimi K2 Thinking直接對(duì)標(biāo)GPT-5、Claude 4.5 Sonnet 這樣的頂尖閉源模型,盡管還有一些瑕疵,但是不妨礙月之暗面的成功。
如果說(shuō)此前的大肆投流商業(yè)化以及DeepSeek的成功,讓不少人對(duì)月之暗面心有懷疑,還能不能做最有希望的大模型創(chuàng)業(yè)企業(yè),此后Kimi K1.5可以視為月之暗面的推理摸索,K2已經(jīng)讓人感到驚艷,Kimi K2 Thinking則是確定了內(nèi)外部的信心。
月之暗面證明了自己,仍然有能力站在大模型第一梯隊(duì)。
11月11日凌晨,月之暗面創(chuàng)始人楊植麟以及合伙人周昕宇、吳育昕,在海外Reddit社區(qū)辦了一場(chǎng)有問必答線上活動(dòng),回答關(guān)于Kimi K2 Thinking以及大模型相關(guān)的問題。
![]()
460萬(wàn)美元成本不重要,K3或有新架構(gòu)特性
圍繞Kimi K2 Thinking的橫空出世,外界對(duì)其訓(xùn)練方法、工程策略與未來(lái)規(guī)劃一直充滿好奇,月之暗面從460萬(wàn)美元訓(xùn)練成本的真?zhèn)危牡綖楹未竽懖捎梦唇?jīng)驗(yàn)證的Muon優(yōu)化器,再到長(zhǎng)鏈推理背后的技術(shù)突破,這是一場(chǎng)難得的技術(shù)直球交流。
Kimi團(tuán)隊(duì)首先澄清了“460萬(wàn)美元訓(xùn)練成本”這一熱門傳聞。團(tuán)隊(duì)表示,這并非官方數(shù)字。訓(xùn)練成本難以量化,尤其是大模型預(yù)訓(xùn)練大量依賴研究、探索和失敗實(shí)驗(yàn),本身就難以用單純的金錢衡量。
而關(guān)于外界最驚訝的一點(diǎn)——為什么敢在如此大型模型上使用一個(gè)幾乎沒人測(cè)試過(guò)的Muon優(yōu)化器——團(tuán)隊(duì)解釋得相當(dāng)直白:Muon雖然未經(jīng)他人驗(yàn)證,但他們嚴(yán)格遵循了縮放定律的驗(yàn)證流程,確保它在所有小規(guī)模測(cè)試中表現(xiàn)穩(wěn)定。在Muon出現(xiàn)之前,已有幾十種優(yōu)化器和架構(gòu)被淘汰,這讓團(tuán)隊(duì)對(duì)自己的研究體系建立起了信心。
在硬件方面,Kimi確認(rèn)他們使用的是Infiniband互聯(lián)的H800 GPU,相比美國(guó)廠商的高端算力設(shè)備并不占優(yōu)。但團(tuán)隊(duì)強(qiáng)調(diào):“我們充分壓榨了每一張卡。”在嚴(yán)格預(yù)算下最大化產(chǎn)出,是這支團(tuán)隊(duì)的一大風(fēng)格。
談到預(yù)訓(xùn)練期間的核心指標(biāo),團(tuán)隊(duì)強(qiáng)調(diào)最重要的依然是損失(Loss)、基準(zhǔn)測(cè)試表現(xiàn),以及內(nèi)部穩(wěn)定性。每一次架構(gòu)消融都必須在更大規(guī)模前通過(guò)驗(yàn)證,不允許跳步。如果模型出現(xiàn)任何異常,擴(kuò)容會(huì)被立刻暫停。
關(guān)于數(shù)據(jù),Kimi用了一個(gè)頗具浪漫氣質(zhì)的比喻:“找到合適的數(shù)據(jù)集,是一門藝術(shù)。”團(tuán)隊(duì)認(rèn)為數(shù)據(jù)之間存在大量交互效應(yīng),直覺固然重要,但最終必須以實(shí)驗(yàn)為準(zhǔn)。
對(duì)于外界關(guān)心的方向策略,Kimi也給出了明確態(tài)度。選擇先發(fā)布純文本模型,是因?yàn)橐曨l模型的數(shù)據(jù)準(zhǔn)備與訓(xùn)練周期都更長(zhǎng);至于1M上下文窗口,團(tuán)隊(duì)已做過(guò)嘗試,只是目前服務(wù)成本過(guò)高,未來(lái)版本中很可能重新引入。
被許多用戶稱道的“K2獨(dú)特散文風(fēng)格”來(lái)自何處?Kimi表示,這既來(lái)自預(yù)訓(xùn)練階段打下的知識(shí)底蘊(yùn),也來(lái)自后訓(xùn)練階段的風(fēng)味調(diào)校,甚至不同的強(qiáng)化學(xué)習(xí)策略都會(huì)導(dǎo)致截然不同的“風(fēng)味差異”。模型性格,某種程度上也反映了團(tuán)隊(duì)本人的喜好。
對(duì)于一些用戶提出的批評(píng),例如模型在戰(zhàn)斗場(chǎng)景或沖突對(duì)話中過(guò)于“安全”、略顯“有毒的積極”,Kimi團(tuán)隊(duì)坦言這是長(zhǎng)期挑戰(zhàn),但相信有解決方案。他們也正在探索如何在保持安全的前提下降低不必要的審查力度。至于NSFW內(nèi)容,團(tuán)隊(duì)并不排斥可能性,但前提是建立可靠的年齡驗(yàn)證機(jī)制并調(diào)整服務(wù)條款。
關(guān)于技術(shù)棧,Kimi繼續(xù)強(qiáng)調(diào)他們?cè)陂L(zhǎng)鏈推理上的獨(dú)特優(yōu)勢(shì)。K2 Thinking目前能穩(wěn)定完成200到300步的工具調(diào)用,團(tuán)隊(duì)將其歸功于端到端智能體強(qiáng)化學(xué)習(xí)訓(xùn)練方式。再加上INT4推理帶來(lái)的速度優(yōu)勢(shì),使得單次長(zhǎng)推理成為可能。
至于未來(lái)技術(shù)升級(jí)路線,Kimi透露他們正在研究新架構(gòu)KDA(Kernel Attention Dual Architecture),并很可能在K3模型中投入使用。此外,團(tuán)隊(duì)不排斥進(jìn)一步開源更多組件,包括安全對(duì)齊技術(shù)棧,但同時(shí)強(qiáng)調(diào)需要找到機(jī)制確保開源細(xì)化不會(huì)被濫用。
Kimi K2 Thinking強(qiáng)在哪?
按照官方介紹,這是月之暗面目前最強(qiáng)的開源思考模型,擁有1萬(wàn)億參數(shù)規(guī)模,采用384個(gè)專家混合架構(gòu),它以“思考型智能體”為目標(biāo)打造,能夠在使用工具的同時(shí)逐步推理,在 Humanity’s Last Exam(HLE)、BrowseComp 等多個(gè)基準(zhǔn)測(cè)試上取得最新的業(yè)界領(lǐng)先成績(jī),在推理、智能體搜索、代碼、寫作以及通用能力等方面都有大幅提升。
當(dāng)然,對(duì)評(píng)分不那么感冒的朋友,更看重實(shí)效。Kimi K2 Thinking 能在沒有人工干預(yù)的情況下,連續(xù)執(zhí)行 200 到 300 次工具調(diào)用, 并在數(shù)百步的鏈?zhǔn)酵评碇斜3诌B貫,解決復(fù)雜問題,標(biāo)志著在測(cè)試時(shí)擴(kuò)展(test-time scaling)上的最新進(jìn)展,包括擴(kuò)大思考 token 的規(guī)模,以及擴(kuò)大工具調(diào)用的鏈路深度,這是堪比Claude長(zhǎng)程規(guī)劃和自適應(yīng)推理能力,Kimi K2 Thinking直接把門檻大幅拉低。
Kimi K2 Thinking 在多項(xiàng)衡量推理、編碼和智能體能力的基準(zhǔn)上刷新記錄。它在帶工具的 HLE 中達(dá)到 44.9%,在 BrowseComp 上達(dá)到 60.2%,在 SWE-Bench Verified 上達(dá)到 71.3%,展現(xiàn)了作為頂級(jí)思考型智能體模型的強(qiáng)泛化能力。
![]()
圖片來(lái)自AI生成
Kimi K2 Thinking 還能在推理過(guò)程中主動(dòng)調(diào)用多種工具,數(shù)百步的序列中也能完成規(guī)劃、推理、執(zhí)行與自適應(yīng)調(diào)整,處理一些最具挑戰(zhàn)性的學(xué)術(shù)與分析類問題。在某次測(cè)試中,它通過(guò) 23 次交錯(cuò)進(jìn)行的推理與工具調(diào)用,成功解決了一道博士級(jí)數(shù)學(xué)難題,充分展示了其深度結(jié)構(gòu)化推理能力與長(zhǎng)程問題求解能力。
編碼也是體現(xiàn)智能體能力的重點(diǎn),Kimi K2 Thinking 在編碼和軟件開發(fā)任務(wù)上表現(xiàn)出顯著提升,尤其在HTML、React 以及組件密集型前端任務(wù)上表現(xiàn)突出,能夠?qū)⑾敕ㄞD(zhuǎn)化為功能完整、響應(yīng)靈敏的產(chǎn)品。在代理式編碼場(chǎng)景中,它在調(diào)用工具的同時(shí)進(jìn)行推理,能夠流暢地融入軟件代理,精確且靈活地執(zhí)行復(fù)雜的多步驟開發(fā)工作流。
低比特量化(Low-bit quantization)是減少大規(guī)模推理服務(wù)器延遲和 GPU 內(nèi)存占用的有效方法。然而,思考型模型通常使用過(guò)長(zhǎng)的解碼長(zhǎng)度,因此量化往往會(huì)導(dǎo)致顯著的性能下降。
為解決這一挑戰(zhàn),月之暗面在后訓(xùn)練階段采用了 量化感知訓(xùn)練(Quantization-Aware Training, QAT),并對(duì) MoE 組件應(yīng)用 僅權(quán)重的 INT4 量化。這使得 K2 Thinking 能夠支持原生 INT4 推理,在生成速度上大約提升 2 倍,同時(shí)仍保持最先進(jìn)的性能。
總體來(lái)看,月之暗面通過(guò)K2 Thinking證明其大模型技術(shù)能力,也更清晰地印證了當(dāng)前大模型發(fā)展的一個(gè)核心趨勢(shì):從追求規(guī)模參數(shù)轉(zhuǎn)向追求推理效能和實(shí)用化能力。
但其長(zhǎng)期競(jìng)爭(zhēng)力,仍需放在與Gemini、GPT等巨頭模型的持續(xù)迭代和更廣泛的市場(chǎng)檢驗(yàn)中觀察。行業(yè)的競(jìng)爭(zhēng),已進(jìn)入一個(gè)比拼技術(shù)深度、工程效率與生態(tài)策略的更為復(fù)雜的綜合階段。(文 | TechPulse ,作者 | 張帥,編輯 | 蓋虹達(dá))





京公網(wǎng)安備 11011402013531號(hào)