![]()
新智元報道
編輯:Aeneas
西湖大學的一篇論文成功登頂Science,力壓另外4篇同主題論文,背后秘密武器,竟是來自這家中國公司的科研外掛?這次比拼速度和算力和全球科技奧運中,他們用150GB/s的神速存儲,直接把數據卷成全球第一!
5篇同樣主題投稿到Science,其中一篇來自西湖大學的論文脫穎而出,相應團隊也順勢成為全球首個成功的團隊!
這驚人的成績背后,除了科研人員的硬實力,離不開強大的算力支撐。
所以,究竟是誰在背后支撐著這支團隊,讓他們卷贏了實力不容小覷的全球頂尖同行?
西湖大學
Science文章跑成第一
這就要從西湖大學的多年布局說起了。
在西湖大學,建立之初的學科布局,基本就是生物醫學、物理、化學和工學這幾個方向。
這些學科對科學計算的要求都極高。因此,從2019年,學校就開始大力投入引進計算資源。
要知道,科研是個講究「又快又準」的地方,比如冷凍電鏡這種研究,全球都在比拼同一個蛋白質結構,無論是哪個國家的哪個實驗室,最終解出來的結構都是差不多的。
而這就演變為一場奧林匹克競賽,追求的是誰能更快、更準。
![]()
為此,曙光存儲對用戶數據做了系統測試,最終發現,在少數幾個存儲技術上調整,就可以把整個計算過程加快大概30%。
要想建立一個集群,存儲就處于重要地位。
這是因為,CPU和GPU的節點可以不斷的去更新,用新的GPU節點代替老的CPU節點,用更新的更快的顯卡代替舊的顯卡,就能得到顯存的擴容。
而底層的存儲系統,就要跟上計算能力升級的節奏。
要知道,在一所高校中,光是生物醫學方向就可能有十幾個甚至二十幾個課題組,能積累幾十PB的數據。這種情況下,存儲系統就很難輕易更新。
另外,很多應用其實跑在單個的CPU或GPU節點上都還好,但是一旦應用成了規模,整體性能就會下降了。
很大一部分原因就在于,存儲的帶寬對于小碎文件的操作能力不足,所以在高校的集群建設中,存儲的地位相當重要。
為此,曙光存儲為西湖大學的AI集群做了一次大升級,給出了十分硬核的存儲方案:單節點帶寬150GB/s,是美國某先進友商的4倍性能,單個設備僅僅占用了2U的機架空間。
在那一期的Science上,全球有5篇同主題的投稿,而西湖大學的這一篇,不僅是第一個投出,數據質量還是全場最高的!
三大平臺,超強實踐
現在,曙光存儲已經為西湖大學打造出人工智能、科學計算等科研存儲平臺,以及冷數據歸檔的共享存儲平臺。
在不同科研領域,曙光存儲都表現了超強的實踐能力。
![]()
比如像冷凍電鏡這種科研場景,對IOPS(每秒輸入輸出操作次數)的要求非常高。
另外還有一些跨業務場景數據的流轉,比如先通過sum的協議寫到存儲集群里,然后再通過服務器對寫進來的數據做一些解析和處理。因此對于存儲系統是不小的挑戰。
而曙光存儲的性能水平在AI計算節點上的處理,可以實現單流極高的帶寬水平。
在客戶現場實測時,甚至能達到150GB/s。
而現在,這種帶寬速度直接讓科研數據跑得飛快,給科研速度開了掛。這種神速,也直接讓客戶當場震驚了。
具體合作
具體來說,曙光存儲在西湖大學的其中一類存儲就是全閃存儲。
作為人工智能集群的一線存儲,它要承接最大的負載,壓力極大,尤其是多節點訓練的時候,這就要求存儲有很高的IOPS。
同時,曙光也會有混閃存儲來為用戶提供一些空間的擴展,然后讓他們來儲存一些數據集,和值得保存的中間結果。
而且通用計算集群上,西湖大學也采用了曙光的存儲來做軟件目錄。
雖然這個軟件目錄沒有像人工智能集群那樣有那么大的吞吐,但對于一個集群的穩定運行,也是不可或缺的。
此外,曙光存儲還會做許多溫數據之類的存儲,比如科研歸檔數據,保存時間可以至少達到5年。
而西湖大學在選擇一線存儲的時候,過程十分慎重,因為需要滿足一些特別的指標。
畢竟,用戶還是最看重集群的性能。
商業落地
不僅如此,曙光存儲現在已大規模落地科研領域,除了西湖大學,還包括北京大學、中國農業大學、華南理工大學、良渚實驗室、紫金山天文臺等的AI4S場景。
如今的AI浪潮中,科研行業同樣站在了風口。
![]()
而真正能撐起這陣AI東風的,絕不僅僅是算力,還有一個常被忽視卻至關重要的一環——存儲力!
面向AI的科研存儲方案,難點在哪?
總的來說,面向AI的科研存儲方案之所以困難,主要有四個原因:
1. 數據極其復雜
2. AI模型訓推對性能要求極高
3. 數據應用流通的挑戰
4. 數據存儲的成本過高
對此,曙光存儲都有解決之道。
![]()
數據復雜性挑戰
首先,AI應用設計的數據類型,大多十分復雜,包括非結構化數據(文本、圖像、音視頻等)、結構化數據(比如成績、檔案對應的表格、數據庫記錄等數據)。
而非結構化數據到增長迅猛,占比不斷攀升,數據格式各異、處理方式不同,這就給存儲帶來了巨大挑戰。
對此,曙光打造了分布式全閃存儲ParaStor,充分發揮先進存力的融合屬性,支持塊、文件、對象、HDFS等多種存儲訪問協議,異構數據無需格式轉換即可一路暢通,避免數據跨存儲系統復制。
這樣,就可以輕松處理PB級對象數據、百TB級文件數據。
AI訓推性能挑戰
第二點,AI模型訓練和推理過程需要處理海量數據,這就對存儲系統的性能提出了極高要求。
比如在模型訓練階段,數據讀取和寫入速度會直接影響訓練周期。多數傳統存儲系統難以滿足每秒 TB 級的數據讀寫需求,無法匹配GPU的高速運算能力,就會導致計算資源閑置,形成性能瓶頸。
同樣,推理階段,對存儲的低延遲要求也極為嚴苛。
曙光的高性能全閃存儲ParaStor,可以通過過190GB/s 帶寬,500萬 IOPS支撐具身智能模型訓練,把模型訓練周期從「月模」加速至「周模」。
數據應用流通挑戰
因為數據共享機制不完善,區域、高校、院系間數據交易標準不明、確權困難,因此就急需打破數據壁壘,建立統一高效的平臺。
為此,曙光打造了數據資產的統一視圖,實現了跨域、跨站點、 跨廠家等復雜數據的全局可視、實時更新;還實現了數據目錄的智能化;能夠面對海量的文件,都能實現千億級文件秒級檢索的能力,以及數據的高效查找。
數據存儲成本問題
AI大模型應用存儲系統的構建成本是很高的,而曙光存儲通過更高的單位存儲密度、更少的空間占用、更優異的性能顯著降低了成本,是百PB-EB級超大規模AI基礎設施的極佳選擇。
現在,根據賽迪顧問新發布的《中國分布式存儲市場研究報告(2025)》,曙光存儲在教育存儲市場份額已經是妥妥的TOP 1。
而且自該報告開始發布以來,曙光存儲已連續3年市場份額排名第一。
曙光存儲用實打實的數據證實:懂科研的存儲,才能真正服務科研。
而在未來,曙光團隊必將用更強大的數字底座,讓中國科研插上翅膀,更早一天抵達世界前沿。
![]()





京公網安備 11011402013531號