專注高效、擁抱端側、以小博大,這群AI領域的“面壁者”正讓智能模型在手機、汽車等終端設備上順暢運行。
全球首個達到GPT-4o水平的端側多模態大模型、“密度定律”的提出者與踐行者、首個“被美國人抄襲”的國產模型——這是成立三年的北京面壁智能科技有限責任公司(以下簡稱“面壁智能”)在AI領域嶄露頭角的幾個剪影。
面壁的核心團隊來自清華,其聯合創始人、首席科學家劉知遠是國內最早研究自然語言處理的科學家之一。與其他“煉大模型”的公司不同,面壁智能選擇了一條與眾不同的端側AI路線,推出了面壁小鋼炮MiniCPM系列端側模型。從2.4B參數能力超越Mistral 7B模型打響口碑開始,面壁智能陸續形成基座、多模態、全模態的MiniCPM端側模型完整譜系。
面壁智能的故事,不僅是一個年輕AI技術團隊的成長史,更是中國在大模型浪潮中從追隨者向創新者轉變的縮影。與科幻小說中試圖以一己之力改變未來的“面壁者”一樣,這家公司正以高效為核心,試圖打破AI模型對算力資源的過度依賴,讓智能在終端設備上“飛入尋常百姓家”。
“走先人一步的路,打以少勝多的仗”
![]()
面壁智能辦公室的墻上,寫著“走先人一步的路,打以少勝多的仗”。 新京報貝殼財經記者羅亦丹/攝
“走先人一步的路,打以少勝多的仗。”當新京報貝殼財經記者走進位于清華科技園的面壁智能辦公室,首先映入眼簾的就是墻上的這樣一句話,而這句話也正是面壁智能發展路線的生動寫照。
2020年12月,清華大學計算機系副教授劉知遠所在的團隊訓練了全球第一個中文開源大模型“CPM”,這一項目也是后來中國奠基性大模型“悟道”的前身。2022年8月,面壁智能成立,雖然這是一家年輕公司,但其核心團隊是在清華大學自然語言處理實驗室長達十幾年的深度學習積累基礎上成長起來的,且這一成立時間要早于ChatGPT火爆前,是十足的“先人一步”。
而當2023年,國產大模型紛至沓來,市場進入“百模大戰”情形后,面壁智能卻選擇了一條與眾不同的路徑——端側模型。
有別于通過規模法則(Scaling Law)以量取勝,動輒千億、萬億參數的大語言模型,端側模型致力于僅利用手機、PC等終端算力支撐起一個完整、可用的模型。
劉知遠對貝殼財經記者表示,規模法則存在重要悖論:“當把模型訓得越來越大后,構建和使用模型的成本都隨規模成正比,這會導致世界上越來越少的團隊能構建和用得起這樣的模型。”
![]()
劉知遠接受記者采訪。 新京報貝殼財經記者吉喆/攝
基于這一洞察,劉知遠團隊提出了大模型的密度法則(Densing Law)。“就像摩爾定律追求電路密度倍增,對大模型來說,我們應該在單位參數里放下更多知識。”劉知遠告訴新京報貝殼財經記者,模型的能力密度每100天就可倍增一次,“意味著每過100天就可以用一半的參數實現100天之前模型的能力,而面壁智能迄今為止的進步均遵守了這一定律”。
2024年2月,面壁智能推出了端側大模型MiniCPM,用僅僅24億參數實現了超過百億參數大模型的性能。2024年6月,面壁智能的“小鋼炮”MiniCPM-Llama3-V 2.5模型甚至遭到了美國斯坦福大學一家AI團隊的“抄襲”,此事最后以抄襲者致歉撤下模型告終,但這也側面證明了國產模型開始崛起,實力受到業內人士認可這一事實。
在這一領域,面壁智能不僅很好規避了同一股腦涌入大模型領域的巨頭們的“正面交鋒”,還積累了深厚的知識儲備、方法論,構建起了屬于自己的護城河。
“如同芯片制造把非常復雜的電路刻蝕到非常小的空間里一樣,相當于我們要把全互聯網的大數據萃取到一個非常小的模型之中,提高模型的能力密度,這需要:一、設計一個高效的模型架構,能夠裝下這么多知識;二、通過數據治理,從PB級的數據中尋找真正高信息量的‘教材’;三、從數據到模型的學習過程本身也是非常復雜的過程,我們提出了‘模型風洞’概念,就像制造飛機之前首先需要在風洞里做模擬實驗,我們通過大量實驗掌握規律,再把規律外推到真正需要訓練的模型上。此外,底層訓練使用的芯片參數與之也有非常密切的關系,也需要做軟硬協同的設計。”劉知遠在接受新京報貝殼財經記者采訪時表示。
技術突破與未來愿景:端側智能的“持久戰”
面壁智能的技術創新正在各領域落地生根。近期,這家公司就發布了MiniCPM 4.1 文本基座模型、MiniCPM V4.5 多模態模型、VoxCPM語音生成模型3 款模型,其中VoxCPM、MiniCPM-V 4.5開源后一度成為國際開源社區平臺 HuggingFace上排名第一、第二的大模型。
劉知遠透露,最近發布的MiniCPM 4.1文本基座模型在架構上做了創新,“能比同尺寸模型速度快五倍甚至更高,這充分展現了面壁智能的技術壁壘。”
但他也向貝殼財經記者坦言,目前AI領域還有大量的問題沒有解決,“比如模型架構、學習效率如何更加高效,一旦全球的數據都學完了,該怎么辦等等,這一發展過程是不能以線性看待的。對待大模型,第一要務還是要具備創新的意識和能力,比如MoE架構早在2021年就有人做了,但最終讓它發揚光大的是DeepSeek。”
劉知遠認為,明年和后年,AI領域將出現重要的里程碑式突破——“自主強化學習”技術的成熟。“從去年到今年開始,學習范式從過去的逐字學習擴展到探索式強化學習,這意味著模型能夠自己創造數據來學習,比如對一個數學題,模型會探索出十幾種不同解題思路,用標準答案驗證對錯,然后從中學習。這是非常重要的學習范式突破。人類智能的高水平體現不是沿著教材逐字學習,而是具備自主學習能力。任何一個優秀畢業生放到工作崗位上待半年就能成為專家,這種自主性非常關鍵。”
談及AI發展的前景,劉知遠仿佛科幻小說《三體》中將戰略眼光瞄準未來的“面壁者”,“突破自主強化學習后,模型將在任何一個給定領域里持續演化成長。從全球分布來看,最大的算力其實位于用戶的終端之上,如果能把這樣的模型放到終端上運行,就會成為每個人的專屬智能個人助理,當然這件事目前還無法做到,還處在一個不斷演化的過程之中。”
事實上,而對于“面壁”這樣一個充滿科幻氣息的名字,劉知遠告訴新京報貝殼財經記者,在起名字時其實先定的英文名“ModelBest”,即“要做最好的模型”。中文名必須以M和B作為首字母,“找來找去,我們認為面壁比較符合人工智能的目標,既有科幻氣質,又隱喻人類智能發展到最高水平應該可以自省。”
劉知遠表示,確立了最終目標后,需要看清形勢,準確預判,打好自己的每一場仗。《論持久戰》的思想精髓就非常值得創業者去借鑒,因為奔向AGI本身也是一個“持久戰”,在這一過程中敵人是不確定的,要跟自己PK,跟友商們PK,跟充滿不確定的未來PK,而跑到終點的才是勝利者。
劉知遠告訴新京報貝殼財經記者,北京在人工智能方向是全國積累最雄厚的地區。“清華大學在1978年后就設立人工智能方向,有長達幾十年的研究積累。”他特別提到北京市各級政府對人工智能發展的高度重視。“2019年我獲評北京智源人工智能研究院的智源學者稱號,那時大模型還沒被廣泛關注,但北京已給予非常豐厚的人才支持。”面壁智能在過去三年獲得了北京智源、智譜、北京市國資、海淀區等多方面的投資支持。
截至2025年10月,面壁智能的端側模型已在汽車、手機等終端領域實現規模化落地。劉知遠預計,不久的將來,裝載其端側模型的設備數量將實現十倍增長。這位從清華園走出的學者、創業者,正帶領團隊在AGI的長征中穩步前行。
中國互聯網發展基金會中國正能量網絡傳播專項基金支持
新京報貝殼財經記者 羅亦丹 編輯 陳莉 校對 柳寶慶





京公網安備 11011402013531號