
![]()
“超算性能的突破與人工智能的深度融合,讓全球氣象預報從「風云莫測」走向「變幻可測」。”
作者丨張夏寧
編輯丨胡敏
12月12日,第八屆 GAIR 全球人工智能與機器人大會于深圳正式拉開帷幕。
本次大會為期兩天,由GAIR研究院與雷峰網(wǎng)聯(lián)合主辦,高文院士任指導委員會主席,楊強院士與朱曉蕊教授任大會主席。
作為 AI 產(chǎn)學研投界標桿盛會,GAIR自2016年創(chuàng)辦以來,始終堅守 “傳承+創(chuàng)新” 內(nèi)核,是 AI 學界思想接力的陣地、技術交流的平臺,更是中國 AI 四十年發(fā)展的精神家園。過去四年大模型驅(qū)動 AI 產(chǎn)業(yè)加速變革,歲末年初 GAIR 如約而至,以高質(zhì)量觀點碰撞,為行業(yè)與大眾呈現(xiàn)AI時代的前沿洞見。
本次峰會之上,清華大學深圳國際研究生院長聘教授,國家超算深圳中心副主任付昊桓以“超智融合支撐下的地球系統(tǒng)模式研發(fā)”為主題,為參會者們帶來了一場精彩紛呈的開場報告。
付昊桓教授在講座上分享了超算在地球系統(tǒng)模式研發(fā)中的應用、發(fā)展歷程、成果及面臨的挑戰(zhàn),他認為超算與大模型開發(fā)具有很多相似之處,同時在地球系統(tǒng)模式的研發(fā)當中,超算還要面臨如何應對時空分辨率提升所帶來的算力需求指數(shù)級增長,以及如何利用AI進一步高效利用多源觀測數(shù)據(jù)等挑戰(zhàn)。
付昊桓教授介紹到,近些年來神威等國產(chǎn)超算系統(tǒng)的性能增長,支撐了地球系統(tǒng)模式時空分辨率的顯著提高,實現(xiàn)在一公里層級左右達到一年每天的全球氣候模擬速度。
他表示,地球系統(tǒng)模擬可以利用超算研究全球氣候變化,以科學模型支撐防災減災,并期望在未來可以做到數(shù)值智能雙驅(qū)動的大灣區(qū)百米級氣象預報系統(tǒng),以百米級的精度構(gòu)建下一代大灣區(qū)氣象模型。
最后,付昊桓教授總結(jié)道:“超算和智算思維類似,都是聚全力于一點,用最強算力形成技術的突破和創(chuàng)新,過程中工具需最大限度自動化,性能、效率、規(guī)模和穩(wěn)定性缺一不可。”
![]()
講座完整視頻,詳見鏈接:https://youtu.be/dw4tRbvoENY
以下是付昊桓的現(xiàn)場演講內(nèi)容,雷峰網(wǎng)作了不改變原意的編輯及整理:
![]()
01
為什么需要用超算模擬地球?
今天非常榮幸參加此次活動。眾所周知,超算的傳統(tǒng)使命是用整臺機器的資源來解決單一核心問題,而地球系統(tǒng)模擬正是超算的經(jīng)典應用之一。為什么要用超算來做地球模擬?因為科學家無法在真實的地球上進行實驗。研究化學、物理等學科,可在實驗室內(nèi)便捷地開展實驗,但如果研究當前備受關注的碳達峰、碳中和、氣候變化,以及未來臺風是否會增多等地球氣候的問題,就必須借助超算構(gòu)建地球的數(shù)字孿生模型來進行實驗。因此,基于超算的地球系統(tǒng)模式對于研究全球氣候變化、防災減災,乃至可持續(xù)發(fā)展都具有重要意義。
這也關聯(lián)到近期備受關注的氣候談判。在各種國際場合,氣候變化也已演變?yōu)橐粋€政治議題,各國圍繞未來的碳中和計劃、如何減排、減排多少等議題進行磋商。此類談判同樣需要模型支撐。由此可見,地球系統(tǒng)模式在眾多方面發(fā)揮著重要作用。
![]()
圖中左上角展示的是全球的地球系統(tǒng)模式的比較,匯總了全球各國的不同模式在過去近百年氣候變化曲線的模擬結(jié)果。可以看到,各模型的模擬結(jié)果之間存在差異。如何進一步降低模型的不確定性?首先,是提升模式的時空分辨率。例如,深圳的下一代氣象模式,我們目標將其時空分辨率提升至100米。這樣,在臺風來臨時,就能更精準地研判臺風對整個城市的具體影響,但同時這會帶來計算需求的指數(shù)級增長。
其次,是新的AI方法。我們對地觀測正在產(chǎn)生海量科學數(shù)據(jù),除了用傳統(tǒng)的數(shù)據(jù)同化方法將數(shù)據(jù)引入模型外,如何利用AI方法是一大方向。
與此同時,超算架構(gòu)也在發(fā)生巨大變化,特別是2010年以來,我們從同構(gòu)多核轉(zhuǎn)向了GPU。規(guī)模上,也從百萬核發(fā)展到千萬核。當前所有的超算,包括國產(chǎn)超算,除了提供傳統(tǒng)的雙精度、單精度浮點算力,也集成了強大的AI算力。如何有效利用AI性能變得非常重要,這些發(fā)展也帶來了新的挑戰(zhàn)。
02
挑戰(zhàn):指數(shù)級增長的算力需求與架構(gòu)變革
第一個挑戰(zhàn)是,計算機在向前發(fā)展,科學也在進步,我們?nèi)绾谓鉀Q越來越復雜的模型與機器之間的適配問題?另一個挑戰(zhàn)是觀測數(shù)據(jù)。太空中約有千余 顆衛(wèi)星在進行科學觀測,相當于地球每天在進行高精度“自拍”,如何融合這些數(shù)據(jù),AI都可以發(fā)揮重要作用。
![]()
接下來,我簡要介紹我們在地球系統(tǒng)模擬,或稱數(shù)字孿生地球方面,于國產(chǎn)超算上開展的一些工作。首先介紹神威系列超級計算機。大家可能從新聞中有所了解,1998年的首代神威1,為國家氣象局建造,服務于1999年50周年國慶閱兵的氣象保障。當時它還是基于英特爾X86架構(gòu)的機器,排名不高。而神威在國內(nèi)外引起關注,始于濟南的神威·藍光。這是第一臺完全采用國產(chǎn)處理器打造的超算,當時吸引了許多美、日專家前來考察。
![]()
而真正憑借全國產(chǎn)處理器獲得世界第一的,是無錫的神威·太湖之光超算。其CPU內(nèi)核完全自主研發(fā),采用了全國產(chǎn)的眾核片上融合異構(gòu)架構(gòu),分為四個核組,每個核組由一個主核和一個8×8的從核陣列組成,集成了管理與高密度計算器件。連續(xù)四次獲得世界第一的神威·太湖之光,也是全球首臺峰值性能超過100 Pflops的機器,并行規(guī)模達一千萬核。
![]()
這臺機器問世之初曾面臨一個挑戰(zhàn):由于采用了全新的國產(chǎn)架構(gòu),沒有可直接在其上運行的大型復雜科學計算程序。因此,我們花了三到五年時間,在神威的國產(chǎn)生態(tài)上開發(fā)了200多個可擴展到百萬核并行的應用。我們還發(fā)展了50余項可充分利用整機的新應用。對于程序員而言,使用一臺一千萬核的機器,如同現(xiàn)在用上萬張顯卡訓練大模型,既是巨大挑戰(zhàn),也極富成就感。神威超算系列有10余項應用入圍國際高性能計算應用最高獎“戈登·貝爾”獎,其中3項獲獎。
![]()
這里列出了一些主要的全新應用領域,涵蓋今天講的地球系統(tǒng)模擬,以及工業(yè)仿真、當前備受關注的生物材料、圖計算、生物醫(yī)藥數(shù)據(jù)分析、量子計算、高能物理、天文等,相關一系列生態(tài)正在神威平臺上逐步建立起來。
![]()
這是我們2015年在神威上完成的第一個項目,即全系統(tǒng)地球系統(tǒng)模式的移植,包括大氣、海洋、陸面、海冰及耦合器,將其整體遷移到新機器上運行。這項約百萬行代碼的移植工作,由清華和北師大組成的二十多人團隊完成,并在該機器上實現(xiàn)了百萬核規(guī)模的高效擴展。
![]()
如此復雜的地球系統(tǒng)模式移植本身是一個典型的復雜軟件工程。因為程序本身復雜,涉及百萬行代碼,需在新機器上運行,且計算分布不均,需對整個代碼進行優(yōu)化與重構(gòu)。而且該程序與新架構(gòu)不適配,需進行全新設計。這類科學計算程序運行與大模型訓練非常相似,需要在全機規(guī)模運行一個月甚至數(shù)月,對機器穩(wěn)定性、I/O及整個系統(tǒng)都是巨大挑戰(zhàn)。最后一個挑戰(zhàn)是交叉型人才匱乏,難以找到既懂氣象又懂HPC的人。近年來又面臨一個新挑戰(zhàn):培養(yǎng)出的這類人才,很快便被從事大模型的公司挖走,因為能勝任這種規(guī)模系統(tǒng)調(diào)優(yōu)的人,所面臨的挑戰(zhàn)與大模型領域高度相似。
![]()
在這個基于國產(chǎn)超算的模式研發(fā)項目中,我們的第一步是對整個程序進行重構(gòu)與優(yōu)化,針對這個復雜模型,我們分不同部分處理,例如其中的動力學部分、求解器部分,這些是相對程序員易懂的部分,我們進行了手動分析和優(yōu)化。
另一部分是模型中的物理過程,包括云微物理過程、降水過程、輻射過程等。這對程序員是很大的挑戰(zhàn),因為他們不了解背后的物理機制。因此,我們主要借助自動化工具,對循環(huán)進行自動變換,以適配新架構(gòu)。
![]()
經(jīng)過初步重構(gòu)優(yōu)化后,我們基本實現(xiàn)了百萬核規(guī)模的擴展,達到了每天模擬約三年氣候的速度。
![]()
03
從“刻畫現(xiàn)象”到“驅(qū)動未來”
在2017年,我們在此基礎上進一步重新設計了整個模型。所謂重新設計,就是針對神威處理器架構(gòu)的特點,對算法、數(shù)據(jù)排布、計算過程、并行過程進行全面優(yōu)化。
由于受生態(tài)限制,氣象領域代碼大多用Fortran編寫,所以我們第一步是將Fortran重寫為C,因為當時我們底層編寫的Athread沒有Fortran接口。轉(zhuǎn)換成C之后,再開展底層優(yōu)化,從而能夠控制DMA、向量化,并實現(xiàn)Register Communication。
![]()
通過這種方式,我們才能真正實現(xiàn)對這一新處理器架構(gòu)的利用。我們的一個神威核組(64個從核),在計算密集任務中,可相當于數(shù)個至四十多個英特爾核的性能。
![]()
2017年,我們的這項工作也入圍了“戈登·貝爾”獎,這副圖片是我們當時對卡特里娜颶風的模擬,其中展示了熱帶氣旋逐漸形成、逼近美國大陸及消散的過程。這是我們首次嘗試利用氣候模型對此類臺風、颶風現(xiàn)象進行較準確的刻畫。
![]()
之后,我們利用這個模型支持了清華大學的氣候系統(tǒng)模式,參與前述的國際模式比較計劃。這套數(shù)據(jù)顯著提升了對熱帶氣旋的模擬能力,我們也吸引了美國國家大氣研究中心(NCAR)的科學家合作,在神威上開發(fā)了高分辨率地球系統(tǒng)模式,并利用該模式生產(chǎn)了全球首套約750年的高分辨率氣候模擬數(shù)據(jù),供國際使用。
![]()
第二步,基于神威·海洋之光,我們進一步向公里級的地球系統(tǒng)模擬探索。海洋之光是神威·太湖之光處理器架構(gòu)的演進,仍采用核組結(jié)構(gòu),但核組數(shù)從4個增至6個,每個核組仍是一個主核帶64個從核。因為數(shù)據(jù)的緩存和移動能力至關重要,每個從核內(nèi)部的緩存架構(gòu)都得到了提升,因此存儲和整體計算性能也得到了進一步提升。
![]()
在此基礎之上,我們致力于將全球氣候模式的分辨率提升至5公里級。圖片展示的是我們2023年的工作,相比2015年首次移植CESM時,科學家已對氣候模擬做了大量改進,推出了新版本,這個新版本又需要移植到新的超算上。基于前期經(jīng)驗,我們采用了一種“非侵入式的代碼并行化方案”,核心是基于OpenMP的O2ATH Thread方案,自動將代碼轉(zhuǎn)換為Athread接口,從而完成了整個代碼主要的并行化工作。
![]()
我們在2023年完成了這項三周內(nèi)的模式移植探索(a three week porting experiment),從CESM 1.3 到 2.0,代碼約有30%到40%的變動。我們通過這種自動化方式,在三周內(nèi)完成了這套代碼在新超算系統(tǒng)上的重構(gòu)與調(diào)優(yōu)過程。
這次工作使性能從最初的每天約模擬5天,提升到最后每天可模擬半年,并且是在全球5公里大氣、3公里海洋的分辨率下實現(xiàn)。2024年,我們進一步引入AI能力,實現(xiàn)了AI增強的全球1公里分辨率,稱為無縫隙的天氣氣候模式。它既可進行短時天氣研究,也可用于長期氣候研究,這也是我們開展此項工作的初衷。
![]()
大家看到的這幾張圖,a圖名為“Blue Marble”,是NASA宇航員在飛船內(nèi)拍攝的第一張完整地球照片,細節(jié)豐富。右上方c圖是1965年首位因氣候模型獲得諾貝爾物理學獎的真鍋淑郎等科學家提出的模型,分辨率約數(shù)百公里,較為粗糙。最后一張圖是我們2024年實現(xiàn)的公里級模型,可見其對氣候過程的刻畫已非常接近遙感衛(wèi)星實時采集的圖像,為HPC與AI進一步融合提供了良好基礎。
![]()
該模型在極端降水的模擬方面效果顯著。
![]()
![]()
在新神威上,模型在弱擴展和強擴展方面均取得了良好的scaling能力。特別在集成AI能力后,可以實現(xiàn)接近全機規(guī)模的擴展,同時達到一年每天以上的模擬速度。
![]()
這張圖小結(jié)了我們多年來在地球系統(tǒng)模擬方面的進展,包括美國、日本和中國超算在該領域推進的工作。圖中橫軸代表模擬分辨率,縱軸代表模擬速度。分辨率的提升意味著計算量以四次方增長。我們希望在提升分辨率的同時,加快模擬速度,目標是向圖右上角推進。目前,我們大致可以在約1公里分辨率下達到接近一年每天的模擬速度。
![]()
這是我們今年的最新工作,集成了之前在大氣、海洋等方面的工作。在與嶗山海洋實驗室合作的這個工作中,聯(lián)合團隊實現(xiàn)了一個名為“AI驅(qū)動的高性能便攜式地球系統(tǒng)模型”(AI-Powered Performance Portable Earth System Model),這項工作也入圍了今年戈登·貝爾獎氣候建模類別的最終提名。
![]()
04
展望:超算與智算的融合演進
接下來談談深圳超算二期。前面已部分提及,近期大模型發(fā)展如此迅速,其背后是AI的Scaling Law。其實在超算領域也是同樣的核心邏輯,即通過高速互聯(lián)將所有處理器連接成整體,形成龐大的計算資源,用以求解極其復雜的問題。這與用數(shù)萬張卡訓練大模型的本質(zhì)相同,其背后需要高度并行可擴展的算法,以及能與算力增長匹配的模型復雜度。
另一個難點在于,超算上運行的多是科學與工程計算,其背后是科學和工程領域的數(shù)理方程。因此,算力、軟件必須與科學發(fā)現(xiàn)協(xié)同發(fā)展。
![]()
我簡單做了一個AI與科學計算領域的比較。在通用人工智能領域,過去這些年我們確實看到了近乎線性的有效擴展。其背后是Transformer這一目前業(yè)界近乎標準、非常適合并行的強力方法。它與GPU架構(gòu)高度共生,形成了一套生態(tài)。數(shù)據(jù)方面,擁有大量公開數(shù)據(jù)集,并有良好的軟件和人才生態(tài)。
現(xiàn)在所有AI會議幾乎是計算機學術會議中參與人數(shù)最多、發(fā)文量最大的,自然吸引了大量研究人員。相比之下,科學計算的優(yōu)勢在于其背后是可解釋的科學規(guī)律,是科學理解轉(zhuǎn)化的方程和模型。但其缺點是代碼復雜、并行難度高、演進緩慢。
培養(yǎng)一位能進行數(shù)理方程建模的研究者需時較長。算力主要依靠國產(chǎn)算力,大約從2013、2014年開始,我們主要基于神威·太湖之光等國產(chǎn)超算。此外,還存在公開數(shù)據(jù)集少、標注難、軟件生態(tài)不完善,以及剛才提到的人才流動性大等問題——超算培養(yǎng)的人才常被大模型團隊吸引。
![]()
回到國家超算深圳中心。在我們2010年一期系統(tǒng)基礎上,二期系統(tǒng)即將上線。時隔15年,其效率將實現(xiàn)巨大提升,從原來的P級峰值雙精度計算性能,提升至預期Linpack持續(xù)測試性能達到雙精度2個E,單精度4個EFlops。
該處理器還支持INT 8計算,若換算為INT 8,整機可支持32 EFlops,理論峰值約40 EFlops。深圳超算二期將與鵬城云腦三期背靠背放置。深圳超算二期是傳統(tǒng)超算,云腦三期是AI超算,兩臺機器間有高速光纖互聯(lián)。如此大規(guī)模的傳統(tǒng)超算與AI超算相連,在全世界可能也屬首例,我們也很期待能探索其在計算上的全新應用。
![]()
國產(chǎn)先進CPU的雙精度浮點算力較高,同時,它既可以做高精度的雙精度浮點計算,又可以做 AI 的計算,當然這也是一個非常高密度集成的方案,最后是 2 萬多節(jié)點可以提供持續(xù)大概2E以上的計算性能。
![]()
此圖展示了初步的應用成果。在氣象常用應用,如WRF或海浪預報中,均取得了顯著的性能提升,尤其得益于芯片集成的片上內(nèi)存帶來的高帶寬。
![]()
我們也準備這臺機器上嘗試HPC與AI融合的氣象模型。例如,我本人主持的一個項目是在這臺超算上嘗試構(gòu)建千萬核可擴展的、公里級的我國區(qū)域海陸氣候模式預測系統(tǒng),核心目標是進行汛期預報,比如在3月份預測我國區(qū)域整個汛期(6、7、8月)的降水情況。這是一個非常困難的問題,包括當前的新型氣象大模型也未能很好解決。我們已開始相關優(yōu)化工作。非常期待高精度模擬與數(shù)據(jù)驅(qū)動大模型結(jié)合能產(chǎn)生何種效果。
![]()
在深圳我們希望推進的另一項工作,是構(gòu)建“國產(chǎn)新一代數(shù)值智能雙驅(qū)動大灣區(qū)百米級氣象預報系統(tǒng)”,包括百米級高精度數(shù)值模擬、AI輔助的大樣本集合預報與數(shù)據(jù)同化技術,以及數(shù)值模型與AI模型雙驅(qū)動。
![]()
最后總結(jié)幾點。從我作為一名超算研究者的角度看,超算與智算的思維非常相似,都是聚全力于一點,用我們最強算力的方式去形成技術的突破和創(chuàng)新。在這個過程中,我們所需的工具也需最大限度地自動化,如代碼遷移、移植、生態(tài)運轉(zhuǎn)等。在所有這些大型計算任務中,性能、效率、規(guī)模和穩(wěn)定性缺一不可。如今,易用的生態(tài)愈發(fā)重要。重大問題的牽引始終是超算發(fā)展的核心驅(qū)動力,需要硬件與軟件協(xié)同發(fā)展。最后,正如之前提到的,我們亟需跨領域復合型人才,并具備系統(tǒng)思維。
我今天的分享就到這里,謝謝大家。
05
對話付昊桓:數(shù)值計算與 AI 的深度共生
下面是在演講之后,付昊桓教授的專訪以及現(xiàn)場觀眾的問答環(huán)節(jié):
雷峰網(wǎng):您現(xiàn)在在超算這邊,最核心想做的事情到底是什么?
付昊桓:其實如果從一個比較抽象的層面來總結(jié),我們現(xiàn)在最核心想推動的一件事,就是數(shù)值計算和人工智能的深度融合。
地球系統(tǒng)只是一個比較典型、也比較容易被大家理解的例子,但并不是唯一的應用場景。類似的問題,其實在很多科學計算領域都會遇到,比如具身智能、生物醫(yī)藥、材料科學等等。只不過地球系統(tǒng)的復雜性、跨尺度挑戰(zhàn)和社會影響都非常突出,所以它經(jīng)常被拿出來討論。
我們并不是說要單獨把 AI 拿出來做一個“更聰明的模型”,也不是簡單地去提升某一個模型的精度,而是希望從根本上去思考:在科學計算這樣一個長期以數(shù)值模擬為核心的方法體系中,AI 到底應該以什么樣的方式介入,才能真正改變我們理解和預測復雜系統(tǒng)的能力。
雷峰網(wǎng):那為什么地球系統(tǒng)會被您反復作為一個核心例子?
付昊桓:因為地球系統(tǒng)本身,幾乎把科學計算中最難的幾個問題都集中在了一起。首先,它是一個典型的混沌系統(tǒng)。我們常說的蝴蝶效應,本質(zhì)上講的是系統(tǒng)對初始條件的高度敏感性。哪怕是一個非常微小的擾動,在經(jīng)過足夠長的時間和足夠復雜的相互作用之后,都可能對整體狀態(tài)產(chǎn)生顯著影響。
其次,它是一個極端多尺度的系統(tǒng)。比如說,臺風這種現(xiàn)象,可能發(fā)生在幾十公里的尺度上;而降水、對流,往往是公里甚至百米尺度;再往下,還有更微觀的過程,發(fā)生在米級甚至更小的尺度上。
更重要的是,這些不同尺度的過程,并不是彼此獨立的,而是相互耦合、彼此影響的。你不能只算大尺度而忽略小尺度,也不能只盯著局部而不看整體。正是這種“所有尺度連在一起”的特性,使得地球系統(tǒng)成為一個非常典型、但也極其困難的研究對象。
雷峰網(wǎng):今年我們觀察到市場關于算力討論比較多,就像算力泡沫的這樣聲音一直存在,而國內(nèi)一些上市公司的算力項目也出現(xiàn)延期或者終止的情況。但是另一方面,頭部科技公司的資本支出一直在高速增長。所以想請教您怎么去判斷當前整個算力市場的一個供需的情況?
付昊桓:其實我自己不是做算力的,但是我們超算培養(yǎng)的很多科研人員,現(xiàn)在確實在做算力。我覺得這里面有一個問題我覺得大家需要去關注,就是算力的投入,到底是不是投硬件就夠了?特別是我們國產(chǎn)算力這一塊。比如從超算的角度來講,長期以來都是硬件的投入比較大,但是軟件的投入相對比較少,我想國產(chǎn)的AI算力可能也面臨這么一個問題。
剛才也提到了其實 GPU 的生態(tài)從大概從 CUDA 推出的 2008 年,到現(xiàn)在已經(jīng)是十幾年的發(fā)展才到現(xiàn)在這樣,背后其實英偉達投了大量的資源來做這個生態(tài),所以你說是不是應該大家都去投算力?還是說我們跟應用貼的更近的,應該多投一點資源來做相應算力的軟件生態(tài),特別是基礎框架的軟件?我感覺這塊做的人可能相對還是比較少。
至于說這個算力到底夠不夠,我感覺對我們科研從業(yè)人員來講可能還是不太夠。至于說產(chǎn)業(yè)發(fā)展角度夠不夠,因為我不在這個行業(yè)里面,我也很難給出準確的判斷。





京公網(wǎng)安備 11011402013531號