「后摩智能」倪曉林：未來十年是屬于大模型的時代，NPU會重塑所有端邊場景｜WISE2024 商業之王大會

IP屬地中國·北京 編輯：朱天宇 36氪 時間：2024-12-02 16:20:15

11月28-29日，為期兩日的WISE2024 商業之王大會于北京隆重召開，作為中國商業領域的全明星盛典，WISE大會今年已經是第十二屆，在不斷變化的時代里見證著中國商業的韌性與潛力。
2024，是有些模糊且變化多于穩定的一年。相比過去十年，大家的腳步正放緩，發展更加理性。2024，也是尋求新的經濟動力的一年，新的產業變化對每個主體的適應性提出了更高的要求。今年WISE大會以Hard But Right Thing（正確的事）為主題，在2024，什么是正確的事，成為我們更想交流的話題。
當日，「后摩智能」副總裁倪曉林帶來了主題演講，分享了AI與NPU背后所蘊含的無限可能與深遠影響。
以下為演講內容（經整理編輯）
倪曉林：尊敬的各位來賓大家好！
我是來自「后摩智能」的倪曉林，「后摩智能」是一家基于存算一體的AI芯片公司。今天每個環節都在講AI，各種AI大模型、AI設備、AI應用場景都在飛速發展。作為AI大時代的參與者、見證者，我們感到非常榮幸。下面與大家分享后摩智能對于邊端側AI算力需求變化的一些看法。
后摩智能
2022年11月OpenAI發布ChatGTP3.5，標志著AI 2.0時代的到來；2023年，大批的本地大模型發布。AI開始沿著兩個路徑同時高速發展。云端模型持續沿著scaling law向前演進，模型規模和參數繼續增加，不斷探索通用智能的邊界。例如去年發布的GTP4的參數就高達1500B，也就是15000億個參數。但追求高通用性、高智商的同時，也帶來了超高的投入和高昂的運營成本。目前已經有大批的玩家開始退出了這個攀高的賽道。
與此同時，端邊側出現了更適合本地部署的7B，13B，30B等模型，和大型通用智能相比，這些模型更適合進入千行百業，解決各類實際問題。和云端“萬模齊發，百模爭霸”相比，端側無疑擁有更大的應用規模，每年全球新增智能設備高達數十億臺，全球端邊側的規模想象空間更大、前景更廣闊。
另外，端邊側的AI具有個性化更懂你、低時延實時性、數據隱私等優點，例如AI PC，它具有了解你個人信息的專屬Agent、根據你歷史文檔建立的本地數據庫等。
當然，目前我們看到更多的討論還是云端模型，端邊側模型的還沒有得到普及，我想除了這些軟件的因素以外，還有一個很重要的影響就是硬件。端側對的硬件要求和云端不同，可以總結為“三高三低”：高算力、高帶寬、高精度、低功耗、低延時、低成本。
CPU顯然無法滿足全部要求，GPU雖然可以滿足三高，但同時其高成本和高功耗又大大限制了端側設備的普及使用。例如如果本地運行30B模型，我們需要一塊4090顯卡，但將近2萬塊錢的成本和近500W的功耗讓絕大部分設備都無法承受。
和云端“訓練”場景為主不同，邊端側大模型基本都以“推理”場景為主。專為本地大模型設計的NPU相信更加適合邊端側的使用。比如我們可以用十分之一的功耗實現GPU相同的算力，同時NPU自帶大內存，無需通過系統總線占用系統內存，就完全可以流暢獨立運行。NPU的成本也大大優于GPU，讓現有設備+AI成為可能。
面對邊端設備對AI高帶寬、低功耗等需求，傳統的馮.諾伊曼架構已經面臨巨大挑戰，特別是存儲墻和功耗墻相信很多企業都已經苦不堪言。
存儲墻，是指因為總線帶寬有限，嚴重限制了數據傳輸的速度。
功耗墻，是指90%以上的功耗是耗費在數據的搬運中，而不是真正需要的計算和處理。
面對這兩堵高墻，后摩智能采用存算一體的全新架構，實現了存儲單元和計算單元的高度集成，計算直接在存儲單元完成，使得功耗大幅下降，帶寬大幅增加。
存算一體的AI芯片實現了AI能效比2-3個數量級提升。算力密度提升高達50%，時延較傳統架構芯片更是有數倍提升。這些特點都非常適合邊端側AI大模型的需求。
后摩智能
目前，后摩智能已經自研了兩代存算一體芯片架構，針對LLM類大模型，進行了專項設計。
主要體現在：
1、基于存算一體自研IPU架構，提供高并行的浮點和整型算力，自研SFU支持多種非線性算子；自研RVV多核提供了超大通用算力，可靈活支持各類LLM/CV算法；自研C2C接口，具備多顆芯片級聯擴展特性，實現更大模型的部署。
2、配套的后摩大道軟件工具鏈，簡單易用，兼容通用編程語言。適配存算架構的算子庫，高效利用存算IP所帶來的性能/功耗優勢，提升部署上線時間。
2023年和2024年，我們已經分別推出了后摩鴻途??H30和后摩漫界??M30兩款NPU芯片，充分展現出了存算一體架構在算力和功耗方面的巨大優勢。以M30為例，100Tops的強大算力，僅需12W的功耗。
在此提前預告一下，2025年，后摩將推出基于新一代“天璇”架構的最新款芯片，性能將再一次大幅提升，相信這款芯片可以加速端邊設備部署大模型的進程。
后摩智能
為了方便AI設備方案商及生產商快速部署，我們不僅提供芯片，還提供多種標準化產品形態，包括力謀??LM30智能加速卡（PCIe）、力謀??SM30計算模組（SoM）等。對于現有各類終端設備，通過標準接口加裝NPU，就可實現本地AI大模型的流暢運行。
2009年的移動互聯網興起，讓我們的手機從功能機變成了智能機。2016年物聯網的爆發，讓我們身邊越來越多的設備變成了智能設備。這些智能設備，在現有方案上，通過+AI+NPU的方式，將再次進化，成為AI大模型使能設備。
比如PC，我們看到聯想已經在大面積推廣AI PC了。汽車AI座艙、AI TV、AI會議大屏、AI具身智能機器人等，它們會成為更懂你、更聰明、更高效的助理、秘書、司機、文案、美工、程序員、輔導老師等等，為我們提供各種服務。希望通過后摩智能的AI芯片，助力大家實現快速升級。
1999 年到 2008 年，互聯網讓中國幾乎所有的行業重做了一遍；2009 年到 2018 年，移動互聯網把中國幾乎所有行業又重做了一遍。我們相信，未來10年的AI大模型時代，NPU將重塑所有端邊場景，所有的端邊設備，都將再重做一遍！
希望與在座各位所有AI的企業、AI生態的合作伙伴一起多多溝通，我們一起合作攜手，通過“+AI”的方式，使現有設備，以及未來將誕生的各種全新型設備，都能夠流暢地運行AI大模型，期待我們一起攜手共創AI的新時代，謝謝大家！

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

舊金山市區停電大量Waymo自動駕駛出租車堵死交通

蔚來樂道汽車將增投超8000塊全新電池包，進度接近一半

馬斯克：要實現生命多行星生存保障文明延續耗資不菲

山姆爆火的400克女款羽絨服，打了多少商家的臉？

必勝客門店被查，羅永浩發聲

壁仞科技赴港股IPO通過聆訊技術迭代路線圖浮現

全站最新

舊金山市區停電大量Waymo自動駕駛出租車堵死交通

蔚來樂道汽車將增投超8000塊全新電池包，進度接近一半

馬斯克：要實現生命多行星生存保障文明延續耗資不菲

山姆爆火的400克女款羽絨服，打了多少商家的臉？

熱門推薦

舊金山市區停電大量Waymo自動駕駛出租車堵死交通

蔚來樂道汽車將增投超8000塊全新電池包，進度接近一半

馬斯克：要實現生命多行星生存保障文明延續耗資不菲

山姆爆火的400克女款羽絨服，打了多少商家的臉？

必勝客門店被查，羅永浩發聲

小米手機相冊編輯確定月底升級！呼聲最高的功能要來了

從華為Mate 80到鴻蒙星光盛典：鴻蒙生態的“集體沖鋒”

壁仞科技赴港股IPO通過聆訊技術迭代路線圖浮現

AI攻下奧數，“AI教父”預言數學家將失業，數學界會“變天”嗎？

谷歌起訴爬蟲公司SerpApi，指控其非法抓取搜索結果并出售數據

智能眼鏡成“無感偷拍”工具，清洗AI標識黑灰產隱現

規模領跑全國！深圳無人車重構智慧物流與民生服務生態

當個性化取代標準化，“公務機+”正在丈量世界與生活的邊界

法拉第未來FX Super One預量產車明日下線，車身細節公布

AI攻下奧數，“AI教父”預言數學家將失業，數學界會“變天”嗎？