11月28-29日,為期兩日的WISE2024 商業之王大會于北京隆重召開,作為中國商業領域的全明星盛典,WISE大會今年已經是第十二屆,在不斷變化的時代里見證著中國商業的韌性與潛力。
2024,是有些模糊且變化多于穩定的一年。相比過去十年,大家的腳步正放緩,發展更加理性。2024,也是尋求新的經濟動力的一年,新的產業變化對每個主體的適應性提出了更高的要求。今年WISE大會以Hard But Right Thing(正確的事)為主題,在2024,什么是正確的事,成為我們更想交流的話題。
當日,「后摩智能」副總裁倪曉林帶來了主題演講,分享了AI與NPU背后所蘊含的無限可能與深遠影響。
以下為演講內容(經整理編輯)
倪曉林:尊敬的各位來賓大家好!
我是來自「后摩智能」的倪曉林,「后摩智能」是一家基于存算一體的AI芯片公司。今天每個環節都在講AI,各種AI大模型、AI設備、AI應用場景都在飛速發展。作為AI大時代的參與者、見證者,我們感到非常榮幸。下面與大家分享后摩智能對于邊端側AI算力需求變化的一些看法。

后摩智能
2022年11月OpenAI發布ChatGTP3.5,標志著AI 2.0時代的到來;2023年,大批的本地大模型發布。AI開始沿著兩個路徑同時高速發展。云端模型持續沿著scaling law向前演進,模型規模和參數繼續增加,不斷探索通用智能的邊界。例如去年發布的GTP4的參數就高達1500B,也就是15000億個參數。但追求高通用性、高智商的同時,也帶來了超高的投入和高昂的運營成本。目前已經有大批的玩家開始退出了這個攀高的賽道。
與此同時,端邊側出現了更適合本地部署的7B,13B,30B等模型,和大型通用智能相比,這些模型更適合進入千行百業,解決各類實際問題。和云端“萬模齊發,百模爭霸”相比,端側無疑擁有更大的應用規模,每年全球新增智能設備高達數十億臺,全球端邊側的規模想象空間更大、前景更廣闊。
另外,端邊側的AI具有個性化更懂你、低時延實時性、數據隱私等優點,例如AI PC,它具有了解你個人信息的專屬Agent、根據你歷史文檔建立的本地數據庫等。
當然,目前我們看到更多的討論還是云端模型,端邊側模型的還沒有得到普及,我想除了這些軟件的因素以外,還有一個很重要的影響就是硬件。端側對的硬件要求和云端不同,可以總結為“三高三低”:高算力、高帶寬、高精度、低功耗、低延時、低成本。
CPU顯然無法滿足全部要求,GPU雖然可以滿足三高,但同時其高成本和高功耗又大大限制了端側設備的普及使用。例如如果本地運行30B模型,我們需要一塊4090顯卡,但將近2萬塊錢的成本和近500W的功耗讓絕大部分設備都無法承受。
和云端“訓練”場景為主不同,邊端側大模型基本都以“推理”場景為主。專為本地大模型設計的NPU相信更加適合邊端側的使用。比如我們可以用十分之一的功耗實現GPU相同的算力,同時NPU自帶大內存,無需通過系統總線占用系統內存,就完全可以流暢獨立運行。NPU的成本也大大優于GPU,讓現有設備+AI成為可能。
面對邊端設備對AI高帶寬、低功耗等需求,傳統的馮.諾伊曼架構已經面臨巨大挑戰,特別是存儲墻和功耗墻相信很多企業都已經苦不堪言。
存儲墻,是指因為總線帶寬有限,嚴重限制了數據傳輸的速度。
功耗墻,是指90%以上的功耗是耗費在數據的搬運中,而不是真正需要的計算和處理。
面對這兩堵高墻,后摩智能采用存算一體的全新架構,實現了存儲單元和計算單元的高度集成,計算直接在存儲單元完成,使得功耗大幅下降,帶寬大幅增加。
存算一體的AI芯片實現了AI能效比2-3個數量級提升。算力密度提升高達50%,時延較傳統架構芯片更是有數倍提升。這些特點都非常適合邊端側AI大模型的需求。

后摩智能
目前,后摩智能已經自研了兩代存算一體芯片架構,針對LLM類大模型,進行了專項設計。
主要體現在:
1、基于存算一體自研IPU架構,提供高并行的浮點和整型算力,自研SFU支持多種非線性算子;自研RVV多核提供了超大通用算力,可靈活支持各類LLM/CV算法;自研C2C接口,具備多顆芯片級聯擴展特性,實現更大模型的部署。
2、配套的后摩大道軟件工具鏈,簡單易用,兼容通用編程語言。適配存算架構的算子庫,高效利用存算IP所帶來的性能/功耗優勢,提升部署上線時間。
2023年和2024年,我們已經分別推出了后摩鴻途??H30和后摩漫界??M30兩款NPU芯片,充分展現出了存算一體架構在算力和功耗方面的巨大優勢。以M30為例,100Tops的強大算力,僅需12W的功耗。
在此提前預告一下,2025年,后摩將推出基于新一代“天璇”架構的最新款芯片,性能將再一次大幅提升,相信這款芯片可以加速端邊設備部署大模型的進程。

后摩智能
為了方便AI設備方案商及生產商快速部署,我們不僅提供芯片,還提供多種標準化產品形態,包括力謀??LM30智能加速卡(PCIe)、力謀??SM30計算模組(SoM)等。對于現有各類終端設備,通過標準接口加裝NPU,就可實現本地AI大模型的流暢運行。
2009年的移動互聯網興起,讓我們的手機從功能機變成了智能機。2016年物聯網的爆發,讓我們身邊越來越多的設備變成了智能設備。這些智能設備,在現有方案上,通過+AI+NPU的方式,將再次進化,成為AI大模型使能設備。
比如PC,我們看到聯想已經在大面積推廣AI PC了。汽車AI座艙、AI TV、AI會議大屏、AI具身智能機器人等,它們會成為更懂你、更聰明、更高效的助理、秘書、司機、文案、美工、程序員、輔導老師等等,為我們提供各種服務。希望通過后摩智能的AI芯片,助力大家實現快速升級。
1999 年到 2008 年,互聯網讓中國幾乎所有的行業重做了一遍;2009 年到 2018 年,移動互聯網把中國幾乎所有行業又重做了一遍。我們相信,未來10年的AI大模型時代,NPU將重塑所有端邊場景,所有的端邊設備,都將再重做一遍!
希望與在座各位所有AI的企業、AI生態的合作伙伴一起多多溝通,我們一起合作攜手,通過“+AI”的方式,使現有設備,以及未來將誕生的各種全新型設備,都能夠流暢地運行AI大模型,期待我們一起攜手共創AI的新時代,謝謝大家!





京公網安備 11011402013531號