2024 上半年, OpenAI 的成果從世界模擬器 Sora,到首個實現多模態 in 到多模態 out 的 GPT-4o ,仍在強勢推進著邁向 AGI 的節奏。面對技術上的差距,追趕 OpenAI ——是這場人工智能革命浪潮發展至今, AI 界仍在追求的目標和努力的方向。
但其實,當下的 AI 技術尚處于高速迭代的過程,依然有非常多有挑戰性的問題沒有被解決,而其中的研究趨勢和范式也不一定只有 OpenAI 才能引領。國內對人工智能對研究不應是亦步亦趨,也不應止于 OpenAI。
幾乎與 OpenAI 同期捕捉到大模型的機遇,2018 即年成立的北京智源人工智能研究院推出我國首個大模型「悟道」,并一直承擔著中國在人工智能行業原始創新的角色。一位悟道大模型的早期參與者告訴 AI 科技評論,「眼光和魄力」力是智源在在本次大模型浪潮中的可貴之處,甚至在最開始國內大模型起步階段,智源會毫不猶豫地給予經費和算力支持。
如今的智源已走過 6 個年頭,在第六屆北京智源大會上值得注意的是,不同于以往從悟道 1.0 到 3.0 所推出的系列模型,本次智源推出了大模型全家桶,分別是大語言模型系列、多模態模型系列、具身智能大模型、生物計算大模型。這背后的原因是,今年 2 月王仲遠接任智源研究院院長,帶領智源團隊基于大模型通往 AGI 的技術路徑的研判,對未來三到五年的戰略規劃進行了重新的梳理和判斷。

「智源不會去做各企業已經在做的、重復性事情,而是去做原始性的創新,要去攻克的是業界的關鍵痛點抑或是前沿技術的熱點,真正為中國去做技術突破。」智源人工智能研究院院長王仲遠說道。
基于這一理念,在具身智能、生物計算等十分前沿的領域中,智源起到提前布局的開創性引領作用,打出了「人無我有」的先手,推出了具身大模型,在機器人泛化動作執行和智能大小腦決策控制等方面取得了多項世界級突破性成果。在國內發展尚不成熟的生物計算大模型中,智源研發了全原子生物分子模型OpenComplex 2。
在國內爭相突破萬億語言模型的節奏下,智源能做到「人有我優」,研發了全球首個低碳單體稠密萬億語言模型 Tele-FLM-1T。多模態大模型層面,智源并沒有采用 DiT 架構,而是押注自回歸路線研發了原生多模態世界模型 Emu 3,同時也推出了輕量級圖文多模態模型系列 Bunny-3B/4B/8B。
正如智譜 CEO 張鵬在智源大會上所說,智源從最早被定義成為 NGO 的偏新型研發機構,發展到今天已成為國內甚至國際人工智能領域的一面旗幟。智源也已經為中國人工智能界奠定了研究基礎,培養了諸多當下業界中的頂尖人才,使得后人能夠站在巨人的肩膀上進一步看到更廣闊的 AI 世界。
而當下的智源亦堅持初衷,不懈怠腳步。「令人驚艷的東西不能只出現在大洋的彼岸。」王仲遠說道。
一、0-1 的原始性創新
「大模型的思潮和很多技術都是從智源發展起來的。」百川智能創始人王小川在 2024 智源大會上說道。
當下,非營利性科研組織站位使得智源既有技術高度,又有智庫的角色,能更多的進行0-1的原始性創新。
解決萬億參數模型的收斂痛點
萬億參數模型,是今年各大模型廠商的必爭之地。
模型規模的提升,帶來了模型精度的提升,但因為參數量規模過大,也對模型的訓練帶來了極大的挑戰,包括內存需求大、網絡通信量大、訓練或推理性能低等問題,常常難以收斂。因此,今年市面上見到的更多為稀疏激活模型,較少有單體稠密的萬億參數模型。
可以說,現在的大模型生態格局中,缺少一個單體稠密萬億參數模型。王仲遠告訴 AI 科技評論,智源在做的事是解決這一痛點,當某家廠商需要訓練萬億乃至更大規模參數模型的時候,無需從頭去解決收斂等一系列問題,開源社區中有一個好的初始化的版本,這時再基于更強的算力和數據量即可對模型進行進一步迭代,不再從頭造輪子。
巨大算力消耗是大參數模型無法避開的問題。對此,智源聯合中國電信人工智能研究院開發了基于模型生長和損失預測等關鍵技術,推出全球首個低碳單體稠密萬億語言模型 Tele-FLM-1T能夠提高訓練效率,降低能耗,實現低碳生長。該模型與百億級的 52B 版本,千億級的 102B 版本共同構成Tele-FLM系列模型。
僅以業界普通訓練方案9%的算力資源,基于112臺A800服務器,用4個月完成3個模型總計2.3Ttokens的訓練,成功訓練出萬億稠密模型 Tele-FLM-1T。模型訓練全程做到了零調整零重試,算力能效高且模型收斂性和穩定性好。
目前,TeleFLM系列模型已經全面開源了52B版本,核心技術(生長技術、最優超參預測)、訓練細節(loss曲線、最優超參、數據配比和Grad Norm等)均開源,Tele-FLM-1T版本即將開源。
Tele-FLM-52B 版本開源地址https://huggingface.co/CofeAI/Tele-FLM
Tele-FLM-Chat 試用(純模型單輪對話版)地址https://modelscope.cn/studios/FLM/ChatFLM
并且,生長策略也為大模型訓練提供了其他可能性,王仲遠透露,將會將其用于異構芯片的異構計算上,基于此訓練 MoE 模型。
不走 DiT 架構的多模態模型
今年,比萬億參數模型更火的趨勢是多模態大模型。而其中在文生視頻這一層面上,國內外主流的研究方式均以 Sora 的 DiT 架構為主,而智源卻沒有跟隨 OpenAI 。
「DiT 當然能達到一個可用的產品級的模型,這是毫無疑問的。但如果瞄準的目標是真正為 AGI 而使用的多模態大模型,我們會認為自回歸路線才是更佳的技術路線。」王仲遠如是判斷。
基于此,智源研發了原生多模態世界模型 Emu 3,最開始即是為統一的多模態生成和理解而設計,采用智源自研的多模態自回歸技術路徑,既統一了視頻、圖像、文字,也統一了生成和理解。目前,Emu3在持續訓練中,經過安全評估之后將逐步開源。
「這個技術路線真的很難,但這也恰恰是適合智源研究院來做的。但同時,我們在做原始創新的時候要尊重科學規律,也接受它失敗的可能性,但即使失敗也是非常有意義的。」
同時,為適應智能端側的應用,智源研究院推出了輕量級圖文多模態模型系列 Bunny-3B/4B/8B,該模型系列采用靈活架構,可支持多種視覺編碼器和語言基座模型。多個榜單的綜合結果表明,Bunny-8B 的多模態能力可達到 GPT-4o 性能的 87%。目前,Bunny 模型參數、訓練代碼、訓練數據已全部開源。
開源地址:https://github.com/BAAI-DCAI/Bunny
FlagOpen,打造大模型時代的Linux
一直以來,智源的大模型開源有兩條線同時進行:一條線是進行智源所研發的悟道系列大模型的開源;第二條線是將整個大模型技術體系開源,包括模型、工具、算法代碼的開源等,建立了 FlagOpen。
時至今日,FlagOpen 的開源更多需要滿足不斷攀升的訓練和推理計算需求,應對大規模AI系統和平臺面臨的集群內或集群間異構計算、高速互聯、彈性穩定的技術挑戰。于是,智源研究院推出了面向大模型、支持多種異構算力的智算集群軟件棧 FlagOS。
FlagOS 融合了智源長期深耕的面向多元 AI 芯片的關鍵技術,包括異構算力智能調度管理平臺九鼎、支持多元AI異構算力的并行訓推框架 FlagScale、支持多種AI芯片架構的高性能算子庫 FlagAttention和 FlagGems,集群診斷工具 FlagDiagnose 和 AI 芯片評測工具FlagPerf。
FlagOS 如同“操作系統”一樣,集異構算力管理、算力自動遷移、并行訓練優化、高性能算子于一體。向上支撐大模型訓練、推理、評測等重要任務,向下管理底層異構算力、高速網絡、分布式存儲。
目前,FlagOS已支持了超過50個團隊的大模型研發,支持8種芯片,管理超過4600個AI加速卡,穩定運行20個月,SLA超過99.5%,幫助用戶實現高效穩定的集群管理、資源優化、大模型研發。FlagOS的推出將為中國新一代智算中心的建設提供助力,顯著提升智算集群的能力水平,加速大模型產業的發展。
二、「人無我有」的先手
「大模型變化得非常快,其中確實有部分工作是商業公司沒有動力、也沒有資源做的事。」面壁智能 CEO 李大海在 2024 智源大會上探討道。
針對萬億參數模型、多模態模型等相對主流且有共識的項目,各大廠商花費較大力氣尚可一試,但在在具身智能、生物計算等十分前沿的領域中,并不是任何一家都具備「想做就能做」的條件。對此,智源會打出「人無我有」的先手。
當下,我們會將大模型視作通用人工智能的基礎、數字世界的智能體。未來,數字世界的智能體也會逐漸進入到物理世界,其方法有二:一是進入到硬件設備中,也就是具身智能;二是進入到微觀世界,即和生命分子相關,是生物計算大模型。
具身智能大模型
智源研究院具身智能創新中心在機器人泛化動作執行和智能大小腦決策控制等方面取得了多項世界級突破性成果。
在具身智能通用抓取能力方面研發了泛化抓取技術ASGrasp,針對跨任意形狀和材質的泛化難題,智源率先突破95%的真機實驗成功率,從而實現了全球領先的商業級動作執行水平。借助這項技術,即使在復雜光線透射、反射的情況下,機器人依然能夠準確感知包括透明、高反光物體的形狀和姿態,并預測出高成功率的抓取位姿。
在分級具身大模型系統方面,智源研發了能夠從失敗中重思考、再嘗試的鉸接物體操作大模型系統 SAGE。該系統有效結合了三維視覺小模型對空間幾何的精確感知能力和通用圖文大模型的通用物體操作知識,使大模型驅動的機器人能夠在任務執行失敗時能夠重新思考并再次嘗試新的交互方式。
并且,智源還研發了全球首個能做到開放指令控制六自由度物體拿取放置的大模型系統Open6DOR。該系統不僅像谷歌RT系列大模型一樣按照自然語言指令中的要求將物體放到指定位置,還能夠進一步對物體的姿態進行精細化控制。
在面向技術終局的端到端具身大模型層面,智源發布了全球首個端到端基于視頻的多模態具身導航大模型 NaVid。該模型可直接將機器人視角的視頻和用戶的自然語言指令作為輸入,端到端輸出機器人的移動控制信號。雷峰網雷峰網雷峰網
針對新一輪的具身智能熱,王仲遠也提出了一些冷思考,要用客觀理性的態度來看待前沿技術,能夠去接受它存在周期并持續投入知道跨越周期。
生物計算大模型
此外,智源研究院,還探索了生成式人工智能應用于分子生物學中的應用。智源研究院研發的全原子生物分子模型OpenComplex 2,是世界領先的大分子結構預測模型,能有效預測蛋白質、RNA、DNA、糖類、小分子等復合物。在生物分子結構預測領域國際競賽CAMEO(Continous Automated Model evaluatiOn)中,OpenComplex 連續2年穩居賽道第一,并獲得了CASP(Critical Assessment of Techniques for Protein Structure Prediction)15 的RNA自動化賽道預測冠軍。
OpenComplex 2 是基于全原子建模的生命分子基礎模型,科研人員發現不僅可以預測大分子的穩定結構,還初步具備預測分子多構型以及折疊過程的能力。基于這樣的能力,生命科學家可以進一步探索蛋白質的生物學功能。目前,智源已和研究伙伴在多項重要疾病上展開了研究,提供成藥性和分子機理研究。
智源研究院構建了全球首個實時孿生心臟計算模型,可實現高精度的前提下生物時間/仿真時間比小于1。實時心臟計算模型是虛擬心臟科學研究的開端,是孿生心臟走向臨床應用的基礎。基于這一模型,智源將創新性地采用物理-數據雙驅動模型,融合第一性原理和人工智能方法,從亞細胞級、細胞級、器官級、軀干級仿真出一個“透明心臟”,且能根據患者的臨床數據,構建出反映患者的個性化生理病理的孿生心臟,從而進行藥物篩選、治療方案優化、術前規劃等臨床應用。
三、AI 研究的新范式
「要是三年前問我還需要多長時間可以實現 AGI,我可能會回答50年,但這幾年隨著大模型的發展,我認為這個數字可以除以 2,20年左右即可能實現。」在2024智源大會的現場,中國工程院院士、清華大學智能產業研究院(AIR)院長張亞勤笑著說道。
圖片
具體來看,信息智能領域 0 至 5 年內,即可在對語言、圖像、聲音和視頻的理解、生成等方面通過新圖靈測試;物理智能領域 0 至 10年內,能實現大模型在物理環境中的理解與操作能力;生物智能領域 0 至 20 年內,都會聚焦人體、腦機接口、生物體、制藥和生命科學,實現大模型與生物體連結的生物智能。
AGI 的加速來臨,也側面要求 AI 有新范式的變動。單純靠 Scaling Law ,做不到 AGI。
在 Sora 及Dall-E團隊負責人阿迪蒂亞·拉梅什(Aditya Ramesh)與紐約大學助理教授謝賽寧的交流過程中,也從技術的角度傳遞出技底層技術的變化:AI 行業正在從依賴手工標注的深度學習模型轉向能夠通過自然語言和描述性文本重建視覺內容的高級模型。
快速流變的同時, AI 帶來的失控風險和安全問題也需提上日程。對此,零一萬物創始人李開復博士表示,如果我們越來越依賴Reward model ,完全讓 AI 自己找路徑的話,發生失控的概率或許會增高,但中長期來看,需要嘗試用“以子之矛攻子之盾”——用更好的技術解決技術帶來的挑戰。
盡管到如今 AI 發展面臨諸多可能性與挑戰,但回顧 2020 年開始悟道模型的研發,智源至少是在亞洲地區最早投入,而且真的投入去做大模型的機構。「最初成立智源、做悟道道想法是非常難得、非常領先的,今后 AI 研究的視野也會更寬廣,智源也會成為促進中國 AI 生態繁榮的平臺。」
AGI 還有很長的路要走。王仲遠預判,GPT-4 之后的突破難度會更大,對算力資源、核心算法的要求都會更高,彼時將不是追趕的過程,而是突破的過程。





京公網安備 11011402013531號