2020 年,1750 億參數規模的 GPT-3 問世。彼時,完整訓練 1750 億參數的模型需要 3.14E11(TFLOPS)的每秒浮點運算量。如果使用英偉達 80GB A100 GPU(16位浮點算力有 312 TFLOPS,但在分布式環境中很難達到峰值),按照每張顯卡 1.5 刀每小時的租賃價格來算,則需要使用一千張 A100 、花費81.6 萬刀、用 22 天才能完成整個訓練過程。
2024 年,大模型只需使用 2B 的參數規模即可達到和 2020 年的 GPT-3 一樣的性能表現。
這一現象,類似于半導體領域中的「摩爾定律」——集成電路上可容納的晶體管數目約每隔兩年便會增加一倍,芯片性能因此持續提升。芯片制程帶來終端算力持續增強,模型制程帶來模型知識密度持續增強,兩者交匯揭示端側智能巨大潛力。
面壁此前推出的端側多模態大模型—— MiniCPM-Llama3-V 2.5 ,實現了「以最小參數,撬動最強性能」的最佳平衡點。

而大模型行業也有自己的摩爾定律,縱觀 OpenAI 的 GPT 系列大模型和各類開源大模型,會發現大家都在“默契”地按照如此軌跡演化。
基于這一發現,面壁智能提出了面壁定律——大模型的知識密度平均每 8 個月提升一倍。
其中,知識密度=模型能力 / 推理算力能耗。
當前,大模型架構-算法-數據等多重因素交織的技術?案仍在?速迭代,模型制程仍有極大的改進空間,實現知識密度的極致提升。

面壁定律圖
正如面壁定律所揭示的知識密度發展趨勢,面壁持續貫徹高效Scaliing,通過模型沙盒,在小模型中尋找最優數據和超參配置再外推至大模型,推出了知識密度極高的 MiniCPM 小鋼炮旗艦端側大模型系列,主要包括以小博大的 MiniCPM 2.4B + 1.2B 的基座模型、 可對標 GPT-4V 的 MiniCPM -V 端側多模態模型以及最小 128K 長文本模型和高性能 MOE 模型。
數據表明,相比 GPT-3,參數規模小的多的 MiniCPM2.4B 具備同等性能, 整體知識密度提高了約86倍。
面壁高效大模型還在持續進化中。在今年的世界人工智能大會(WAIC 2024)上,面壁發布了高效稀疏模型 MiniCPM-S 和助力開發者打造 SuperAPP 的全棧式工坊 MobileCPM。
MiniCPM-S 不僅完美承接過去面壁智能一系列高效端側大模型工作,更體現面壁在堅定地按照其所提出的高效 Scaling 路徑持續發力,同時又一次驗證并加速了面壁定律。
從最初出圈的 AI Infra 到 小鋼炮端側大模型,面壁智能無一不是在非共識階段就打出「先手」,走在 AGI 技術研究的前沿,預測大模型發展趨勢,成為大模型行業發展風向標。
一、 MiniCPM-S:2.8倍推理速度提升,FFN 模塊 84% 成本降低
在以 LLaMA2 7B 為代表的主流開源大模型中,就存在稀疏激活現象。LLaMA2 FFN 模塊稀疏度為 70% 左右,每個詞元(token) 保留輸出數值較大的 30% 神經元參與計算即可讓下游任務表現不發生顯著下降。稀疏度越高,每個 詞元激活的神經元越少,模型推理所需的計算量就越少。
與采用稠密計算的模型相比,采用稀疏計算的模型對給定的詞元輸出的「激活值」有很多為0、或者非零但對結果影響很小,這些激活值所對應的神經元可稱為處于「未激活」狀態,在推理時跳過這些未激活的神經元,可實現顯著加速。
然而,現有主流大模型在稀疏激活上面臨兩個困境:一方面,稀疏模型大都基于 Swish、GELU 等無法輸出大量零元素的激活函數,需要進行激活閾值搜索方可界定神經元的激活與否,其稀疏激活特性利用起來較為復雜,且在推理時強制跳過閾值下的非零神經元容易造成性能損失;另一方面,其稀疏度仍相對有限,如 LLaMA2 停留在 70% 左右。
對此,面壁的 MiniCPM-S 提出了 ProSparse 的稀疏激活解決方案:
首先,將激活函數從 Swish 重新替換為 ReLU(最初的Transformer即采用ReLU激活),使激活值自然地存在大量零元素,跳過這些零激活值的神經元嚴格無損。
然后,通過漸進式的、帶約束的稀疏感知訓練,提升稀疏度。
結果顯示,性能持平,且將神經元激活比例降至約 10%。

論?地址:https://arxiv.org/pdf/2402.13516.pdf
模型地址:https://huggingface.co/openbmb/MiniCPM-S-1B-llama-format
PowerInfer
可運? GGUF 地址:https://huggingface.co/openbmb/MiniCPM-S-1B-sft-gguf
基于此,面壁推出 MiniCPM-S 高效稀疏激活模型。具體而言,這一模型有三大特點:
Sparse:高度稀疏。MiniCPM-S 的 FFN 模塊具有極高的稀疏度,平均可達到 87.89%,FFN FLOPS 下降 84%,大模型能耗與推理成本顯著降低。
Speed:高效推理。相比采用稠密計算模式的模型,能使用更少計算量進行更快速的推理, 在純 CPU 環境下推理時,結合Powerinfer推理框架,decode 速度提升 2.8 倍。
Strong:強大性能。雖然計算量變少,但無損于下游任務性能,其中,神經元激活比例降至12.1% ,知識密度相比稠密模型提升 2.57 倍、相比Mistral-7B 提升 12.1 倍。
可以說, MiniCPM-S 又一次驗證了過去基于面壁定律發布的 MiniCPM 1.2B 和 MiniCPM 2.4B ,并且在時間上進行了加速,高效 Scaling Law 仍在持續演化。
二、MobileCPM:降低開發者門檻,一鍵集成端側大模型到APP
隨著大模型賽道的進一步演進,一個共識是:基座大模型只屬于資源充足的少數玩家,普通創業者的機會更多是在上層應用。基于此,涌現了諸多AI 原生應用和 Agent 產品,以及與其相對應的能夠起到強大支撐能力的 APP 開發工具和平臺。
目前市面上的大模型 APP 開發平臺的共性是易用、精度高、易部署、安全可靠等特點,而其中能做到提供端側大模型接口的則少之又少。然而,除了共性的「一鍵集成、開箱即用」優勢,面壁智能基于團隊本身強大的高效端側模型能力推出了 MobileCPM ,如此一來即無需云端 GPU ,實現真正的零推理成本,100 萬 tokens 只需要 0 元。

可以說,MobileCPM 拉開基于端側模式 APP 探索的帷幕,再次降低了開發者開發大模型應用的門檻,并且增加了端側大模型應用這一選項,真正改變了過去C端產品云端服務成本?昂的商業模式,為?模型產品創新提供了新可能。
具體來看,MobileCPM 可以提供三種模式:
基礎模式:包含了豐富的適配端側?模型 APP 的 SDK 套件,開發者基于此即可?由靈活地搭建?模型 APP,但在這個過程中,底座模型和智能體仍需要開發者??開發和接?;
精裝模式:在基礎模式基礎上,提供 1.2B 參數的?壁新?代?效稀疏?模型 MiniCPM-S,并且MobileCPM 還支持任意端側模型的集成,開發者可以根據具體需求選擇替換其它端側模型,并可以通過增加或修改prompt的方式定制多種API,滿足不同業務場景需求。
全包配件模式:在精裝模式的基礎上預裝豐富的 intent,并提供保姆式教程,開發者也可使用自定義 intent,減少開發時間,?幅提升應?的豐富性。
于開發者而言,無需 GPU,只需使用 MobileCPM 即可在手機本地部署大模型,在很大程度上消除了隱私問題的擔憂。并且,也不要求頂配手機,五年內發布的手機運行起來均無壓力,端側毫秒級響應,iphone 15 實測下,推理速度輕松可達 30 tokens/s,相當于人類語速的18~30倍。
更重要的是,MobileCPM 已經全??持 iOS系統,立時可用,Android 版本也即將開啟公測,預計即將正式發布。
MobileCPM 開源地址:https://github.com/OpenBMB/MobileCPM
MobileCPM 這一破壞式創新可以讓任何開發者都能一鍵集成產品,實現大模型與 APP 的無縫對接。
三、面壁與 AGI 千里江山圖
實際上,摩爾定律不僅意味著性能的提升和能耗、成本的下降,還意味著整個行業需要不停奔跑才能留在原地,在變相地推動行業去吃苦鉆研、迭代技術。
大模型時代的面壁定律亦是如此,在本就乾坤未定的 AGI 發展格局中,從更深層次來看,這一規律也拉出一條行業基本線。也就是說,一定會有先行者率先站出來進行技術的革新,指出并試驗出一條技術迭代的可行路徑,而后將其開放出來供行業使用、共同進步。
面壁智能就扮演了這樣的角色。
早在面壁智能成立之前,高效的基因就刻在團隊的基因里。而經過一年多的探索與實踐,從 MiniCPM-2B 到 MiniCPM-S,從不輸 OpenAI 的 Scaling Law 曲線到面壁定律,「高效」在這一團隊也中不斷生出新的定義,被賦予新的內涵。雷峰網雷峰網雷峰網
當下,面壁團隊會將面壁定律視作高效大模型的第一性原理,后續將會一直用實際成果一次次驗證它。面壁智能聯合創始人&CEO 李大海公開表示,在 2026 年年底,面壁就可以做到 GPT-4 水平的端側模型。
除了技術層面的進步,商業化落地也是團隊極其看重的事情,一直在以積攢 know-how 的方式去廣泛、高效地探索大模型落地的各種途徑。現已服務過大 B 企業,也嘗試過 2B2C,涉及領域包括金融、營銷、法律、內容。
在 WAIC 2024 上,面壁智能首席科學家劉知遠還透露了關于穿戴設備、智能硬件等更多端側 AI 的場景和應用,這些也預示著端側 AI 生態的序幕即將拉開。
之所以將重點聚焦到端側,一方面是因為端側是落地起來更具象化、更現實的途徑;另一方面也是因為面壁一直在做離用戶最近的事情。
李大海曾說道,現在的 AGI 賽道就像一個千里江山圖在徐徐展開,它代表了「生態里不同企業需要緊密合作」的現狀。當下,面壁在這幅圖中的位置逐漸清晰。
現在可以放心大膽地說:高效大模型,就看面壁智能!





京公網安備 11011402013531號