《科創(chuàng)板日報(bào)》12月9日訊(記者 張洋洋)“沒有一百萬張顯卡,你根本做不了大模型。”這是過去兩年籠罩在AI行業(yè)頭頂?shù)摹百Y金算力決定論”。但在月之暗面(Kimi)總裁張予彤看來,當(dāng)算力資源不再是唯一的敘事邏輯時(shí),事情正在發(fā)生變化。
近日,張予彤現(xiàn)身清華大學(xué)進(jìn)行了公開分享。這是其自2024年底卷入與金沙江創(chuàng)投主管合伙人朱嘯虎的“股權(quán)隱瞞”風(fēng)波后,張予彤罕見的一次公開露面。
去年底,金沙江創(chuàng)投主管合伙人朱嘯虎曾公開指責(zé)張予彤在職期間隱瞞在月之暗面的900萬股免費(fèi)股份,違反受托之責(zé);而月之暗面創(chuàng)始人楊植麟則隨后發(fā)文力挺,明確其作為聯(lián)合創(chuàng)始人的身份,強(qiáng)調(diào)股份授予是基于其在公司運(yùn)營、戰(zhàn)略及融資方面的長期貢獻(xiàn),且“與部分股東沒有投資月之暗面的決策獨(dú)立”。
風(fēng)波并未影響這位Kimi“二號人物”的步調(diào)。作為負(fù)責(zé)公司整體戰(zhàn)略與商業(yè)化的總裁,張予彤在此次分享中,不僅披露了最新上線模型 Kimi K2 Thinking 的技術(shù)細(xì)節(jié),也集中闡述了這家公司接下來的業(yè)務(wù)走向和商業(yè)化思考。
▍打破“唯算力論”
“從 Kimi 創(chuàng)業(yè)之初,行業(yè)里最大的質(zhì)疑就是:你們沒有百萬張卡,怎么跟大廠拼?”張予彤坦言,這種質(zhì)疑源于一種線性的行業(yè)共識:更強(qiáng)的模型必然對應(yīng)天價(jià)的資本開支,“但當(dāng)我們慢慢意識到算力資源不是唯一敘事時(shí),事情就變得有意思了”。
張予彤透露,月之暗面在訓(xùn)練萬億參數(shù)的Kimi K2模型時(shí),首次驗(yàn)證了二階優(yōu)化器Muon的大規(guī)模可行性,實(shí)現(xiàn)了至少兩倍的token效率提升,“這不僅意味著訓(xùn)練成本下降兩倍,而是同一份數(shù)據(jù)我們能得到更多的智能。”
張予彤強(qiáng)調(diào),“現(xiàn)在訓(xùn)練的真正瓶頸是數(shù)據(jù)墻,而不是算力本身“。Muon優(yōu)化器此前已被發(fā)明,但從未有人將其應(yīng)用于萬億參數(shù)模型訓(xùn)練。月之暗面團(tuán)隊(duì)攻克了規(guī)模化使用時(shí)面臨的訓(xùn)練穩(wěn)定性難題,讓這一技術(shù)真正落地。
除了算法創(chuàng)新,月之暗面還推行“Day-0 Co-Design”理念——在模型開始訓(xùn)練前,就進(jìn)行基礎(chǔ)設(shè)施與算法的深度耦合設(shè)計(jì)。張予彤表示,基礎(chǔ)設(shè)施和算法人才的緊密協(xié)同,讓每一項(xiàng)改進(jìn)都以“復(fù)利”方式體現(xiàn)在智能效率上。
這種技術(shù)路線得到了市場驗(yàn)證。今年11月上線的Kimi K2 Thinking模型,在“人類最后的考試”(Humanity's Last Exam)等多項(xiàng)基準(zhǔn)測試中,表現(xiàn)對標(biāo)GPT-5和Claude Sonnet 4.5等全球頂尖模型。在斯坦福大學(xué)HELM綜合評測中,K2模型獲得非思考模型最佳成績。第三方盲測平臺LMArena顯示,Kimi K2 Thinking是開源模型中表現(xiàn)最好的。
“我們不是說今天就做到了世界最好,但已經(jīng)能夠做到在單位算力上產(chǎn)出最高的智能價(jià)值”,張予彤坦言,這是公司接下來最重要的戰(zhàn)略目標(biāo)。
目前,Cursor、Youware、Genspark以及Perplexity等全球知名AI應(yīng)用已接入Kimi K2模型。Perplexity作為擁有數(shù)千萬活躍用戶、月訪問量2.8億次的AI搜索應(yīng)用,在其模型列表中,除四個(gè)閉源模型外,唯一接入的就是Kimi K2 Thinking。
張予彤特別提到,AI搜索中的深度研究是Kimi模型的優(yōu)勢場景。K2 Thinking支持多達(dá)200-300輪工具調(diào)用,可以邊思考邊使用工具完成復(fù)雜調(diào)研任務(wù)。Vercel創(chuàng)始人在社交媒體透露,其內(nèi)部Agent場景測試中,Kimi實(shí)際表現(xiàn)優(yōu)于其他閉源模型。投資機(jī)構(gòu)Social Capital的CEO也表示,旗下投資公司已將大量工作轉(zhuǎn)至K2平臺,因?yàn)椤靶阅軓?qiáng),成本又比頂尖閉源模型低得多”。
從產(chǎn)品層面,月之暗面今年踐行“模型即產(chǎn)品”理念,將模型與Agent產(chǎn)品體驗(yàn)垂直整合。張予彤介紹,團(tuán)隊(duì)從預(yù)訓(xùn)練階段就加入大量真實(shí)Agent場景數(shù)據(jù),包括工具使用和多輪規(guī)劃的軌跡數(shù)據(jù);產(chǎn)品上線后,用真實(shí)用戶體驗(yàn)作為信號持續(xù)優(yōu)化模型。
今年推出的“OK Computer”Agent模式,產(chǎn)品名靈感源自Radiohead經(jīng)典專輯。該模式目前支持包括圖片生成、音頻生成在內(nèi)的20多種工具,工具調(diào)用最高可達(dá)50步,近期將升級至200-300步。“我們的目標(biāo)是讓OK Computer成為每個(gè)人的全棧助理,”張予彤說。
她透露,用戶對OK Computer進(jìn)行了極限測試:有人上傳龐大Excel文件處理上百萬行數(shù)據(jù),有人上傳大量文件要求Agent完整理解上下文。這種“長時(shí)任務(wù)”能力正是月之暗面下一步重點(diǎn)方向——讓Agent能夠像在公司工作一樣,開完周會后連續(xù)工作一整周。
▍不競爭的競爭策略
在底層效率問題被創(chuàng)新攻克后,如何將技術(shù)突破轉(zhuǎn)化為商業(yè)壁壘和市場份額,成為新的考量。大模型市場依舊火熱,這家獨(dú)角獸公司如何在巨頭環(huán)伺下贏得市場地位,也是現(xiàn)場關(guān)注的焦點(diǎn)。
“我覺得最有效的競爭方式就是不競爭,”當(dāng)被問及同大廠巨頭競爭時(shí),張予彤給出了這樣的回答,她解釋,不競爭不是躺平,而是找到自己的敘事和真正擅長的事情。
對月之暗面而言,第一個(gè)核心優(yōu)勢是底層技術(shù)創(chuàng)新。“大模型領(lǐng)域還有很多真正需要解決的問題,這些問題本質(zhì)上都需要底層技術(shù)創(chuàng)新,這正是創(chuàng)業(yè)公司最有優(yōu)勢的地方。”
第二個(gè)優(yōu)勢是端到端的聯(lián)合優(yōu)化能力。張予彤直言,大企業(yè)內(nèi)部不可避免存在組織壁壘、信息傳遞不暢等問題,而月之暗面只有300人,算法、工程、產(chǎn)品可以全部坐在一起,“很多新想法可以當(dāng)天提出、當(dāng)天實(shí)驗(yàn)”。
從產(chǎn)品定位看,Kimi有意識地做出取舍。張予彤稱,生活?yuàn)蕵贩较驔]做,多模態(tài)生成也沒做,“我們更專注于邏輯層、Agent層,以及深入研究、PPT、數(shù)據(jù)分析、網(wǎng)站開發(fā)這類偏生產(chǎn)力、偏復(fù)雜任務(wù)的鏈路,”她表示,這些任務(wù)需要長程規(guī)劃和復(fù)雜工具調(diào)用,能創(chuàng)造更高經(jīng)濟(jì)價(jià)值。
談及模型公司與AI應(yīng)用的關(guān)系,張予彤認(rèn)為這是一個(gè)動態(tài)演進(jìn)過程。她表示,與互聯(lián)網(wǎng)產(chǎn)品不同,大模型能力仍在快速變化,應(yīng)用側(cè)需要具備“前瞻性設(shè)計(jì)”能力,去想象尚未出現(xiàn)但一定會沿技術(shù)演進(jìn)路徑出現(xiàn)的能力。“如果沒有這種前瞻性,可能會出現(xiàn)產(chǎn)品革新了體驗(yàn)但模型能力跟不上,或者模型能力躍升但產(chǎn)品設(shè)計(jì)還停留在分步調(diào)用的舊范式。”





京公網(wǎng)安備 11011402013531號