![]()
很多個“楊植麟”,組成了月之暗面。
文|《中國企業家》記者 王怡潔
見習記者 孫欣
編輯|何伊凡見習編輯|李原
圖片來源|視覺中國
“在月之暗面(以下簡稱‘月暗’),天才也是分三六九等的。”月暗前員工宋凱對《中國企業家》說。用公司的說法是,“Kimi無閑人”。
宋凱將月暗的文化概括為“和諧的暴躁”,技術大佬之間溝通直率,也充滿壓力。他們“坦白、激烈、高效”,會當面批評同事,也會把建議無情斃掉。交鋒中,“你這個傻X”照樣會從天才的嘴里冒出來。十幾分鐘后,一切又能像沒發生過。
但他認為在月暗“別人‘噴’你,都是有理由的”。令人厭惡的“摘桃子”現象不可能出現。這里人效比極高,“大廠里三五十人團隊干的事,在Kimi可能就兩個人做”。
雖然大模型公司往往天才“扎堆”,但月暗仍有獨樹一幟的氣質。“(他們)文化更統一、人員更精簡、追求更純粹。”一位接近月暗的投資人對《中國企業家》說。
2024年底,楊植麟曾因Kimi的激進投流以及與投資人朱嘯虎的官司,被推到風口浪尖。2025年初,月暗的新模型又被DeepSeek-R1打亂了發布節奏。
上半年,月暗一度淡出公眾視野,Kimi的C端月活也不斷下滑。據QuestMobile數據,截至2025年9月,豆包MAU突破1.72億,DeepSeek為1.45億,Kimi的MAU僅為967萬。
但到7月,Kimi-K2模型的推出,讓人們重新見到了楊植麟的技術底牌。K2在編碼、Agent、數學推理任務均表現驚艷,更在各類基準性能測試上拿下SOTA成績。
9月開始直到11月,Kimi又相繼發布Agent模式“OK Computer”;混合線性注意力架構Kimi Linear;月暗的首個推理模型K2 Thinking——這些產品因各自的技術原創性,獲得了業內好評。
美國知名企業家、硅谷投資人查馬斯表示,已將大量工作從Grok遷到Kimi K2。美國《自然》雜志用“又一個DeepSeek時刻”來形容K2的表現。
月暗絕地反攻如何完成?上半年,“大模型六小虎”的核心團隊發生不同程度的動蕩,但月暗的聯創與技術梯隊整體穩定。
雖然叫停投流,選擇在“模型即產品”上孤注一擲,讓月暗增加了商業化未知數;但在投資人眼中,楊植麟對AGI的偏執,仍讓其成為被追逐的標的。
近日媒體獲悉,月之暗面正在進行新一輪融資,規模大約在6億美元,投前估值約38億美元。前述投資人對《中國企業家》證實了月暗新融資“即將關閉”的說法。“他們去年從阿里拿到了很多現金,但在算力、人才消耗上,每年的花費還在10億~20億元級別。”
“全球現在可以提供底座能力的廠商越來越少,大家都在收斂,技術寡頭會更有機會贏得超額利潤的未來。團隊有技術理想主義,對沖擊AGI更加堅定。雖然他們有過商業化的波折,仍然是很稀缺的資產。”
聚焦絕對性能
回頭看,DeepSeek-R1的上線,既給月暗帶去了壓力,也是其重新聚焦技術長板的分水嶺——R1上線前,Kimi還沉浸在投流大法中。
據《中國企業家》了解,Kimi的投流由張予彤主導,員工將她形容為精力極其旺盛,好像“永動機”。2024年10月、11月,Kimi的月均廣告投放金額超過2億元。彼時抖音已開始全力扶植豆包,向Kimi封鎖渠道。Kimi只好猛攻B站,把CPA(用戶轉化人均成本)報價從年初的30元拉到了50元。
![]()
“那時互聯網流量越來越貴,Kimi有趁著品牌紅利期,占領先發優勢的考慮。”前述投資人對月暗去年的商業化沖刺表示理解。
但DeepSeek-R1未用任何營銷,便成為國民應用的表現,讓楊植麟警醒。2025年2月中旬,他親自叫停投放,將目光聚焦于基礎算法和模型能力的升級與突破。本來Kimi-K2計劃在2025年上半年發布,路線也跟DeepSeek的強化學習一致,但被R1意外“截胡”后,楊植麟將模型優化目標更多對準了Agentic能力。
經過近半年攻堅,月暗用連續發布一系列模型和突破技術,重回大模型牌桌。
2025年7月11日,月暗發布Kimi-K2“超大架構”模型,參數高達1T。目前,全球有實力研發1T參數的大模型公司屈指可數:除了海外的OpenAI、谷歌,僅有阿里的Qwen3-Max、螞蟻集團發布的百靈大模型Ling-1T,達到了萬億參數。
9月底,月暗灰度測試Kimi的Agent模式“OK Computer”。
10月31日,月暗開源混合線性注意力架構Kimi Linear。依靠在混合線性注意力上的重要突破,該架構對算力成本實現了極大程度的降低,并能在短上下文、長上下文、強化學習擴展機制等場景中,超越同梯隊全注意力機制模型的表現。簡而言之,能讓用戶“花小錢,辦大事”。
曾在混合線性注意力這條路上試水的公司不止月暗。MiniMax的M1模型、通義千問都曾在這條路線上摸索。參與月暗技術論文創作的MIT在讀博士楊松琳在采訪中表示:MiniMax的M2模型或由于對“多跳推理”的測試不足,又退回了全注意力機制。
而月暗完成了突破,核心在于對線性注意力模塊Kimi Delta Attention(KDA)的設計,在每3層KDA中,插入1層全注意力層;并通過更細粒度的門控機制,更有效地利用了有限狀態下的RNN(循環神經網絡)內存。從而確保性能不掉點的情況下,最大程度節省算力。
相比月暗,DeepSeek采用的是“稀疏注意力機制”。近期,DeepSeek也為行業提供了一種新思路——OCR路線研究(純像素輸入模型),把文字渲染成圖片,用視覺模態當壓縮媒介。
有趣的是,月暗的研究員對DeepSeek的設計不以為然。
“我個人覺得有點太刻意了。我更傾向繼續在特征空間(Feature Space)里下功夫,去找到更通用,并且與具體模態無關(Modality-agnostic)的方法,來提升模型效率。”11月11日,月之暗面聯合創始人吳育昕在社交媒體平臺Reddit的有問必答(AMA)活動上,如此評價DeepSeek。
11月6日,月暗又發布了K2系列的首個推理模型Thinking。相比于海外OpenAI動輒數千萬美元的投入,該模型訓練成本據傳僅為460萬美元。
在技術層面,Kimi K2 Thinking最引人注目的是在后訓練階段加入了“量化感知”,對MoE組件應用進行INT4權重量化,而非大多數產品使用的FP4精度。
這一技術創新除了提升生成速度之外,對推理硬件的兼容性更強,對英偉達低端GPU和國產加速計算芯片,也更加友好。
雖然對460萬美元這個數字,楊植麟和兩位聯合創始人都下場辟謠:訓練成本很難量化,其中很大一部分用于研究和實驗。但INT4的創新帶來的成本優化,是顯而易見的。月暗表示:該模型是在有限數量的H800 GPU上訓練而來,他們“把每一張卡都利用到了極致”。
“最近日本客戶對月暗的產品關注和美譽度很高。他們的技術一直維持在高水平,且持續發布,價格又足夠便宜,已經形成了很好的品牌調性。”前述投資人說。
i人公司、i人模型
蟄伏半年,月暗為何可以沖出重圍?這由模型行業的人才特性決定。“這是個高精尖科技領域,堆人是沒有用的。沒有一個天才帶隊,來多少高級人才都沒用。”
今年6月,meta在硅谷開出了“1億美元”年薪,瘋狂挖角OpenAI的員工。但短短幾個月,被挖走的人又紛紛離開meta,讓挖角變成了一場鬧劇。
“meta超級智能實驗室號稱有3000人,但多數都是做輔助工作。核心團隊就44個人,真正能主導技術路線的,應該只有幾個人。”一位大模型投資人對《中國企業家》談道。
與互聯網、電商等不同,人工智能的高級人才不會單純被“鈔能力”打動。越頂尖的專家,越需要愿景和志同道合的團隊。這也讓科技領袖的學術號召力、師門傳承,在模型公司的人才招攬中變得格外重要。
對月暗來說,最寶貴的資產便是楊植麟本人。他畢業于清華大學計算機系,獲得卡內基梅隆大學計算機博士學位,師從蘋果公司現任AI負責人Ruslan Salakhutdinov。
在清華大學求學期間,楊植麟便是一位學術風云人物,拿遍了國內外各類獎項。他后來也曾在清華任職講師,“楊(植麟)老師的《自然語言處理(NLP)》課在學生中很有名。”一位清華姚班的畢業生告訴《中國企業家》。
學術成績之外,楊植麟對AGI的追求,也被視為“追求技術理想”的代表。“他非常有號召力,如果覺得清華某個實驗室的研究課題好,會把實驗室‘連鍋端’到月暗。”宋凱說。
天才的聚集,讓月暗保持著簡潔、高效的組織文化。“大家開會前先把文檔對齊,每人只說幾句話,大家就散了。”當然,簡潔也因為大模型創業容不得“摸魚”。“除了算法之外,底層基座、前后期數據的每一個環節,如果誰掉了鏈子,會很明確地感覺出來,一個人就可以拉崩整條供應鏈。”
“有些模型創業公司除了技術文化,已經開始有商業化、增長,乃至官僚的幾種文化混雜,但月暗的文化還是比較純粹。”前述投資人說。這也讓月暗對于員工和技術“大神”,有相當的容忍度。
例如,Kimi的關鍵人物之一蘇劍林,在內部被稱為“蘇神”。他提出的RoPE(旋轉位置編碼),以簡潔的數學形式解決了Transformer在處理長序列時的位置信息問題,既保持了計算效率,又實現了更好的外推能力,如今已是絕大多數大語言模型的標配技術之一。因此,“蘇神”也是月暗里唯一可以居家辦公的員工。
考慮到研發人員多為“i人”,月暗還專門設計了一個點菜機器人。員工們將周圍的外賣分類到“難吃”“一般”“可以吃”“好吃”等,由機器人幫員工決定中午吃什么。
月暗文化的特別之處還在于,楊植麟并不是個“書呆子”。他在清華讀書期間,便和聯合創始人、算法負責人周昕宇一起組過搖滾樂隊。如今月暗的會議室,也以各種知名樂隊命名。創始人的趣味投射到產品中,也讓Kimi與市場的效率產品相比,更具極客和文藝的風味。
科技博主“海拉魯編程客”認為,K2的產品頁面設計極簡,“國內大模型廠商開始在頁面添加推薦產品,但K2仍然克制。”
對于競爭對手,月暗有其獨立的價值觀判斷。海拉魯談到月之暗面的相關職位描述,面試問題之一是:“請說出Claude Code為什么不如OpenAI的Codex。”當多數技術人員更推崇Claude Code的極致效應時,月暗的觀點與海拉魯的判斷一樣:“在編程能力上,Claude是一個很懂技術的產品經理,但Codex是一個真正的軟件工程師。”
有用戶表示,K2在輸出答案時“絕不諂媚”的特點讓他們覺得有趣。“問K2 Thinking我帥還是吳彥祖帥?”K2 Thinking會有理有據地,將“為何吳彥祖帥”的推理過程展示出來。
這種不拍馬屁的人格,是月暗團隊刻意設計。為此,團隊在預訓練階段編碼了先驗知識(Priors),又在后訓練(Post-training)階段為其增添了獨特的“風味”(Flavor)。
為了確保K2的智能“上限”,月暗在大模型追求效率之時,也反其道行之。許多用戶反映:K2-Thinking思考很慢,有時比同類產品甚至要慢5~10倍。
月暗對此解釋:目前版本優先確保性能和準確性,在推理階段更細致、更耗時。“我們故意保留了更長的思考路徑,犧牲了些速度,是為了讓模型能真正完成復雜推理。”雖然未來,團隊有可能會優化“令牌效率”(token-efficiency),讓 Kimi “想得少一點,答得快一點”。
商業化仍是難題
“往山頂,我們又走了一段距離。”K2發布后,楊植麟對著媒體回顧了他這一年的感受時總結道。
2024年曾與月暗齊頭并進的“大模型六小虎”,MiniMax和階躍星辰抓緊多模態;智譜扎根本土,走to B/to G的路線;百川智能和零一萬物減少了基礎模型迭代,專注于場景落地。越來越多公司放棄了對基座模型的追求,行業不需要那么多“基座”也成為共識。
![]()
對手在減少、賽道在集中,競爭卻沒有變得更容易。攀登技術高峰的同時,更殘酷的商業化命題擺在眼前。如何活下去,楊植麟也在尋找答案。2024年月暗投流掀起軒然大波,也證明楊植麟并非不問世事的天真極客。
2024年6月,月暗決定:要用巨量投入,快速獲得市場,占領用戶心智。據《中國企業家》了解,彼時月暗覆蓋了大量渠道,“渠道商的數據也五花八門”。
在瘋狂砸錢、沖刺數據的背景下,月暗在2024年9月前后,使用量明顯領先對手。同時,公司內部也爆發出了大規模的渠道商欺詐事件。很多人給月暗送“假料”,讓楊植麟蒙受了巨額損失。
到2024年12月,月暗一度準備啟動面向專業用戶的會員結合API調用的商業化計劃,與更優質的機構和個人合作。但彼時,朱嘯虎對月暗發起訴訟,將計劃打斷。
今年2月,DeepSeek-R1上線后,讓月暗痛下決心,砍掉了“幾乎70%的投流”。楊植麟也從騰訊挖來了付強任技術副總裁,負責增長開發,“教團隊如何用系統、體系化方法做增長”。
只保留最基礎的營銷后,月暗更聚焦在極客群體中的影響力。據悉,K2模型發布時,月暗未如過去一般高頻直播,而是選擇更多在社區運營,讓技術研發團隊在即刻、知乎、小紅書上分享觀點。
不過這些并不意味著,月暗破解了商業化難題。一方面,Kimi模型龐大,固然架構創新、技術優化可以降低部署成本,但客戶的存儲、傳輸成本仍然不低。另一方面,放棄投流后,Kimi的C端量級還在與大廠拉開距離。
2025年9月,Kimi開啟了會員付費訂閱,將Kimi-reseahcher、OK Computer等能力打包分層,設置了49 元/月、99 元/月、199元/月三檔付費模式。但外界認為,Kimi按照請求次數來計費的方法顯得“性價比不高”。對此,月暗回應:這符合他們的后端成本結構,也表示將考慮改進(比如按提問或按字數計費)。
與大廠纏斗,畢竟是一場非對稱戰爭,“這是創業公司很難完成的事。”投資人士告訴《中國企業家》。智譜AI近半年完成了多輪融資,估值已達到400億元。MiniMax不久前也剛完成一筆3億美元融資,估值達到300億元。月暗融資后,是否將發起IPO計劃,楊植麟還有一些時間思考。
當下,他的做法是,先用技術突破獲得資本市場認可,同時繼續向AGI行進。
目前,月暗已經在思考用“模型訓模型”的可行性。8月,楊植麟在采訪中談到,希望K2能參與到K3的開發。而K3是否會突破語言大模型進入多模態?月暗給出的答案是:公司已在研究K2的VL(視覺-語言)版本。
(文中宋凱為化名)





京公網安備 11011402013531號