記者丨雷晨
編輯丨張偉賢
近期,月之暗面三位創(chuàng)始人楊植麟、周昕宇和吳育昕同時(shí)現(xiàn)身Reddit論壇,進(jìn)行了一場長達(dá)數(shù)小時(shí)的線上問答活動(dòng)。
這場技術(shù)極客風(fēng)格的互動(dòng),舉辦在Kimi K2 Thinking模型發(fā)布第五天。該模型在“人類最后的考試”等多項(xiàng)基準(zhǔn)測試中表現(xiàn)超越GPT-5,引發(fā)全球AI社區(qū)關(guān)注。
在問答過程中,創(chuàng)始人團(tuán)隊(duì)不僅回應(yīng)了訓(xùn)練成本、算力優(yōu)化、開源策略等核心問題,更直面海外用戶對“中國LLM”的使用疑慮。
![]()
多項(xiàng)測評成績領(lǐng)先
11月6日晚,月之暗面推出Kimi K2 Thinking模型,并稱其為“Kimi迄今能力最強(qiáng)的開源思考模型”。
這一模型基于“模型即Agent”理念訓(xùn)練,原生掌握“邊思考、邊使用工具”的能力。在多項(xiàng)權(quán)威基準(zhǔn)測試中,K2 Thinking達(dá)到SOTA水平。
譬如,在被稱為“人類最后的考試”的HLE(Humanity’s Last Exam)測試中,K2 Thinking獲得了44.9%的成績,超過GPT-5的41.7%。在自主網(wǎng)絡(luò)瀏覽能力BrowseComp基準(zhǔn)測試中,Kimi K2 Thinking同樣以60.2%的得分,領(lǐng)先GPT-5的54.9%。同時(shí)在復(fù)雜信息收集推理SEAL-0測試中,其以56.3%的得分超過GPT-5的51.4%。
值得一提的是,該模型無需人類干預(yù),即可憑借持續(xù)穩(wěn)定的深度思考能力自主實(shí)現(xiàn)高達(dá)300步的工具調(diào)用,從而幫助用戶解決更復(fù)雜的問題。這是月之暗面在Test-Time Scaling(測試時(shí)擴(kuò)展)領(lǐng)域的最新進(jìn)展,通過同時(shí)擴(kuò)展思考 Token 和工具調(diào)用的步數(shù),實(shí)現(xiàn)更強(qiáng)的Agent和推理性能。
K2 Thinking最引人注目的特點(diǎn)之一,是其推理性能的全面提升。據(jù)悉,該模型能夠連續(xù)執(zhí)行200至300次工具調(diào)用來解決復(fù)雜問題,保證任務(wù)連續(xù)性。
吳育昕表示,這種支持“思考-工具-思考-工具”的交錯(cuò)執(zhí)行模式,在大語言模型中仍屬較新行為。
月之暗面以HLE測試中一道人文類題目推理過程為例,在示例中,Kimi K2 Thinking經(jīng)過5次搜索和推理,結(jié)合每步搜索到的新信息,層層深入,最終推理出了答案。
而當(dāng)推理鏈條變長,如何保持其推理過程中的穩(wěn)定性?楊植麟表示,團(tuán)隊(duì)采用端到端的智能體強(qiáng)化學(xué)習(xí)訓(xùn)練K2 Thinking,這使模型在數(shù)百個(gè)步驟的工具調(diào)用過程中,包括檢索在內(nèi)的每個(gè)中間環(huán)節(jié)都保持良好性能。
![]()
極致壓榨算力
在算力資源相對有限的條件下,月之暗面團(tuán)隊(duì)展現(xiàn)出了優(yōu)秀的工程優(yōu)化能力。
吳育昕在回答中坦言,團(tuán)隊(duì)使用的是配備Infiniband的H800 GPU集群,無論在算力規(guī)模還是芯片性能上都不占優(yōu)勢。
但他強(qiáng)調(diào),團(tuán)隊(duì)“把每張顯卡的性能都壓榨到了極致”。
針對訓(xùn)練成本問題,楊植麟也做出回應(yīng)。他強(qiáng)調(diào),所謂“460萬美元”的成本并非官方數(shù)字,真正的訓(xùn)練成本很難量化,因?yàn)橹饕糠质茄芯亢蛯?shí)驗(yàn)。
關(guān)于外界對模型使用較多代幣的質(zhì)疑,楊植麟回應(yīng)道:“當(dāng)前版本中,我們優(yōu)先考慮的是絕對性能而非代幣效率。”他表示,后續(xù)會(huì)嘗試將效率納入獎(jiǎng)勵(lì)機(jī)制,以便模型能學(xué)習(xí)如何簡化思考過程。
在工程落地層面,K2 Thinking采用了原生INT4量化技術(shù),對MoE組件應(yīng)用了INT4純權(quán)重量化,使得生成速度提升了約2倍。
周昕宇補(bǔ)充道,選擇INT4是為了更好地兼容“非Blackwell GPU”,同時(shí)利用現(xiàn)有的INT4推理marlin內(nèi)核。
談及OpenAI的燒錢策略,周昕宇表示:“我們也不清楚OpenAI為何如此燒錢,這恐怕只有薩姆·奧爾特曼本人知道。我們有屬于自己的方式和節(jié)奏。”
![]()
國產(chǎn)大模型突圍
值得注意的是,月之暗面所堅(jiān)持的開源策略,讓中國AI大模型得到了更廣泛的國際認(rèn)可。
今年7月,美國知名編程工具Cursor全面禁止中國IP調(diào)用Claude等模型。市場迅速做出了選擇——平臺(tái)OpenRouter數(shù)據(jù)顯示,Kimi K2的調(diào)用量隨即大幅攀升。其API價(jià)格僅為Claude Sonnet的五分之一,展現(xiàn)出顯著的性價(jià)比競爭力。
在交流環(huán)節(jié),一位海外用戶表示,在其工作場所,Kimi是其主要測試的模型,但生產(chǎn)使用上仍然會(huì)用美國本土模型,這主要由于管理層對于“中國LLM”的風(fēng)險(xiǎn)感知。
對此,吳育昕表示,雖然“封禁”風(fēng)險(xiǎn)通常超過控制范疇,但開源模式是消除部分疑慮的好辦法。
楊植麟亦表示:“我們之所以支持開源,是因?yàn)槲覀兿嘈砰_源是一件促進(jìn)團(tuán)結(jié)而非分裂的事情。當(dāng)前雖然有一些挑戰(zhàn),但我們非常樂意與大家共同面對。”
從歐洲到北美,從亞洲到非洲,越來越多的開發(fā)者正在調(diào)試基于Kimi K2 Thinking的應(yīng)用。
OpenRouter官網(wǎng)顯示,在近一周的模型調(diào)用榜單上,排名前二十的模型中,中國模型已占據(jù)七席。而Kimi K2更與同期發(fā)布的Grok4登上增長榜前兩名,日處理量突破100億Token。
![]()
(OpenRouter官網(wǎng))
當(dāng)前,月之暗面已經(jīng)勾勒出下一代K3模型的發(fā)展藍(lán)圖。
楊植麟表示:“在OpenAI建成千億級美元數(shù)據(jù)中心之前,K3會(huì)推出的。”他透露,團(tuán)隊(duì)正計(jì)劃在K3中引入重大的架構(gòu)變革,“KDA是我們最新的實(shí)驗(yàn)性架構(gòu),相關(guān)想法很可能會(huì)在K3中使用。”
據(jù)介紹,KDA(Kimi Delta Attention,一種線性注意力模塊)在實(shí)驗(yàn)中表現(xiàn)出色,楊植麟表示它在所有評估維度上都展現(xiàn)出性能提升,包括長序列輸入輸出的強(qiáng)化學(xué)習(xí)場景,同時(shí)保持了線性注意力機(jī)制的效率優(yōu)勢。
SFC
出品丨21財(cái)經(jīng)客戶端 21世紀(jì)經(jīng)濟(jì)報(bào)道
編輯丨黎雨桐
21君薦讀





京公網(wǎng)安備 11011402013531號