國產(chǎn)大模型在多項(xiàng)基準(zhǔn)測試中超越GPT-5

IP屬地中國·北京 21世紀(jì)經(jīng)濟(jì)報(bào)道 時(shí)間：2025-11-15 18:09:53

記者丨雷晨
編輯丨張偉賢
近期，月之暗面三位創(chuàng)始人楊植麟、周昕宇和吳育昕同時(shí)現(xiàn)身Reddit論壇，進(jìn)行了一場長達(dá)數(shù)小時(shí)的線上問答活動(dòng)。
這場技術(shù)極客風(fēng)格的互動(dòng)，舉辦在Kimi K2 Thinking模型發(fā)布第五天。該模型在“人類最后的考試”等多項(xiàng)基準(zhǔn)測試中表現(xiàn)超越GPT-5，引發(fā)全球AI社區(qū)關(guān)注。
在問答過程中，創(chuàng)始人團(tuán)隊(duì)不僅回應(yīng)了訓(xùn)練成本、算力優(yōu)化、開源策略等核心問題，更直面海外用戶對“中國LLM”的使用疑慮。

多項(xiàng)測評成績領(lǐng)先
11月6日晚，月之暗面推出Kimi K2 Thinking模型，并稱其為“Kimi迄今能力最強(qiáng)的開源思考模型”。
這一模型基于“模型即Agent”理念訓(xùn)練，原生掌握“邊思考、邊使用工具”的能力。在多項(xiàng)權(quán)威基準(zhǔn)測試中，K2 Thinking達(dá)到SOTA水平。
譬如，在被稱為“人類最后的考試”的HLE（Humanity’s Last Exam）測試中，K2 Thinking獲得了44.9%的成績，超過GPT-5的41.7%。在自主網(wǎng)絡(luò)瀏覽能力BrowseComp基準(zhǔn)測試中，Kimi K2 Thinking同樣以60.2%的得分，領(lǐng)先GPT-5的54.9%。同時(shí)在復(fù)雜信息收集推理SEAL-0測試中，其以56.3%的得分超過GPT-5的51.4%。
值得一提的是，該模型無需人類干預(yù)，即可憑借持續(xù)穩(wěn)定的深度思考能力自主實(shí)現(xiàn)高達(dá)300步的工具調(diào)用，從而幫助用戶解決更復(fù)雜的問題。這是月之暗面在Test-Time Scaling（測試時(shí)擴(kuò)展）領(lǐng)域的最新進(jìn)展，通過同時(shí)擴(kuò)展思考 Token 和工具調(diào)用的步數(shù)，實(shí)現(xiàn)更強(qiáng)的Agent和推理性能。
K2 Thinking最引人注目的特點(diǎn)之一，是其推理性能的全面提升。據(jù)悉，該模型能夠連續(xù)執(zhí)行200至300次工具調(diào)用來解決復(fù)雜問題，保證任務(wù)連續(xù)性。
吳育昕表示，這種支持“思考-工具-思考-工具”的交錯(cuò)執(zhí)行模式，在大語言模型中仍屬較新行為。
月之暗面以HLE測試中一道人文類題目推理過程為例，在示例中，Kimi K2 Thinking經(jīng)過5次搜索和推理，結(jié)合每步搜索到的新信息，層層深入，最終推理出了答案。
而當(dāng)推理鏈條變長，如何保持其推理過程中的穩(wěn)定性？楊植麟表示，團(tuán)隊(duì)采用端到端的智能體強(qiáng)化學(xué)習(xí)訓(xùn)練K2 Thinking，這使模型在數(shù)百個(gè)步驟的工具調(diào)用過程中，包括檢索在內(nèi)的每個(gè)中間環(huán)節(jié)都保持良好性能。

極致壓榨算力
在算力資源相對有限的條件下，月之暗面團(tuán)隊(duì)展現(xiàn)出了優(yōu)秀的工程優(yōu)化能力。
吳育昕在回答中坦言，團(tuán)隊(duì)使用的是配備Infiniband的H800 GPU集群，無論在算力規(guī)模還是芯片性能上都不占優(yōu)勢。
但他強(qiáng)調(diào)，團(tuán)隊(duì)“把每張顯卡的性能都壓榨到了極致”。
針對訓(xùn)練成本問題，楊植麟也做出回應(yīng)。他強(qiáng)調(diào)，所謂“460萬美元”的成本并非官方數(shù)字，真正的訓(xùn)練成本很難量化，因?yàn)橹饕糠质茄芯亢蛯?shí)驗(yàn)。
關(guān)于外界對模型使用較多代幣的質(zhì)疑，楊植麟回應(yīng)道：“當(dāng)前版本中，我們優(yōu)先考慮的是絕對性能而非代幣效率。”他表示，后續(xù)會(huì)嘗試將效率納入獎(jiǎng)勵(lì)機(jī)制，以便模型能學(xué)習(xí)如何簡化思考過程。
在工程落地層面，K2 Thinking采用了原生INT4量化技術(shù)，對MoE組件應(yīng)用了INT4純權(quán)重量化，使得生成速度提升了約2倍。
周昕宇補(bǔ)充道，選擇INT4是為了更好地兼容“非Blackwell GPU”，同時(shí)利用現(xiàn)有的INT4推理marlin內(nèi)核。
談及OpenAI的燒錢策略，周昕宇表示：“我們也不清楚OpenAI為何如此燒錢，這恐怕只有薩姆·奧爾特曼本人知道。我們有屬于自己的方式和節(jié)奏。”

國產(chǎn)大模型突圍
值得注意的是，月之暗面所堅(jiān)持的開源策略，讓中國AI大模型得到了更廣泛的國際認(rèn)可。
今年7月，美國知名編程工具Cursor全面禁止中國IP調(diào)用Claude等模型。市場迅速做出了選擇——平臺(tái)OpenRouter數(shù)據(jù)顯示，Kimi K2的調(diào)用量隨即大幅攀升。其API價(jià)格僅為Claude Sonnet的五分之一，展現(xiàn)出顯著的性價(jià)比競爭力。
在交流環(huán)節(jié)，一位海外用戶表示，在其工作場所，Kimi是其主要測試的模型，但生產(chǎn)使用上仍然會(huì)用美國本土模型，這主要由于管理層對于“中國LLM”的風(fēng)險(xiǎn)感知。
對此，吳育昕表示，雖然“封禁”風(fēng)險(xiǎn)通常超過控制范疇，但開源模式是消除部分疑慮的好辦法。
楊植麟亦表示：“我們之所以支持開源，是因?yàn)槲覀兿嘈砰_源是一件促進(jìn)團(tuán)結(jié)而非分裂的事情。當(dāng)前雖然有一些挑戰(zhàn)，但我們非常樂意與大家共同面對。”
從歐洲到北美，從亞洲到非洲，越來越多的開發(fā)者正在調(diào)試基于Kimi K2 Thinking的應(yīng)用。
OpenRouter官網(wǎng)顯示，在近一周的模型調(diào)用榜單上，排名前二十的模型中，中國模型已占據(jù)七席。而Kimi K2更與同期發(fā)布的Grok4登上增長榜前兩名，日處理量突破100億Token。

（OpenRouter官網(wǎng)）
當(dāng)前，月之暗面已經(jīng)勾勒出下一代K3模型的發(fā)展藍(lán)圖。
楊植麟表示：“在OpenAI建成千億級美元數(shù)據(jù)中心之前，K3會(huì)推出的。”他透露，團(tuán)隊(duì)正計(jì)劃在K3中引入重大的架構(gòu)變革，“KDA是我們最新的實(shí)驗(yàn)性架構(gòu)，相關(guān)想法很可能會(huì)在K3中使用。”
據(jù)介紹，KDA（Kimi Delta Attention，一種線性注意力模塊）在實(shí)驗(yàn)中表現(xiàn)出色，楊植麟表示它在所有評估維度上都展現(xiàn)出性能提升，包括長序列輸入輸出的強(qiáng)化學(xué)習(xí)場景，同時(shí)保持了線性注意力機(jī)制的效率優(yōu)勢。
SFC
出品丨21財(cái)經(jīng)客戶端 21世紀(jì)經(jīng)濟(jì)報(bào)道
編輯丨黎雨桐
21君薦讀

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

英偉達(dá)即將公布季度業(yè)績市場聚焦AI芯片供需前景與潛在風(fēng)險(xiǎn)

有用戶反饋蘋果iPhone 17 Pro Max用濕巾清潔后機(jī)身涂層被擦除

美股點(diǎn)金丨估值擾動(dòng)再襲美股，英偉達(dá)最新財(cái)報(bào)能否成為轉(zhuǎn)折點(diǎn)？

App獨(dú)立開發(fā)者在代碼中奔赴自己的熱愛｜婧觀其變·新職業(yè)

第七屆檢博會(huì)在廣州舉行，特設(shè)全運(yùn)會(huì)主題展區(qū)

廣汽昊鉑A800廣州車展公布內(nèi)飾，搭載華為乾崑智駕與鴻蒙座艙

全站最新

英偉達(dá)即將公布季度業(yè)績市場聚焦AI芯片供需前景與潛在風(fēng)險(xiǎn)

有用戶反饋蘋果iPhone 17 Pro Max用濕巾清潔后機(jī)身涂層被擦除

美股點(diǎn)金丨估值擾動(dòng)再襲美股，英偉達(dá)最新財(cái)報(bào)能否成為轉(zhuǎn)折點(diǎn)？

App獨(dú)立開發(fā)者在代碼中奔赴自己的熱愛｜婧觀其變·新職業(yè)

熱門推薦

英偉達(dá)即將公布季度業(yè)績市場聚焦AI芯片供需前景與潛在風(fēng)險(xiǎn)

有用戶反饋蘋果iPhone 17 Pro Max用濕巾清潔后機(jī)身涂層被擦除

美股點(diǎn)金丨估值擾動(dòng)再襲美股，英偉達(dá)最新財(cái)報(bào)能否成為轉(zhuǎn)折點(diǎn)？

App獨(dú)立開發(fā)者在代碼中奔赴自己的熱愛｜婧觀其變·新職業(yè)

第七屆檢博會(huì)在廣州舉行，特設(shè)全運(yùn)會(huì)主題展區(qū)

持續(xù)暴跌！比特幣失守9.5萬美元關(guān)口，日內(nèi)跌超1%

廣汽昊鉑A800廣州車展公布內(nèi)飾，搭載華為乾崑智駕與鴻蒙座艙

蘋果推出大折疊，影像集體上大底，2026 將是手機(jī)的「大」年

下周重磅日程：最重要的財(cái)報(bào)和數(shù)據(jù)，都來了

OpenAI 創(chuàng)始工程師卡帕西力挺自動(dòng)駕駛技術(shù)：將導(dǎo)致停車場逐漸消失

三星Galaxy S26手機(jī)被曝有線充電25W，充電速度快于iPhone 17

MIT開發(fā)可穿戴皮膚監(jiān)測貼片：利用AI提供個(gè)性化護(hù)膚建議

沖刺千億GMV，盒馬也盯上奢侈品生意？開始賣四千塊的Burberry了

商用車迎來新能源化拐點(diǎn)：重卡突圍

高交會(huì)硬核科技展示我國科技創(chuàng)新成果