微軟在官網開源了一款名為Magma的多模態AI Agent基礎模型。與傳統AI Agent相比,Magma具有跨越數字和物理世界的能力。它能夠自動處理圖像、視頻、文本等多種類型的數據,實現不同領域的信息融合。

作為視覺語言動作(VLA)基礎模型之一,Magma能夠從海量的公開視覺和語言數據中學習知識,融合語言、空間和時間智能,應對數字和物理世界中的復雜任務和環境。Magmahai 內置了心理預測功能,這使得它能夠更準確地預測視頻中人物或物體的意圖和未來行為,這一功能大大提高了AI對未來時空動態的理解能力。
這款模型的應用前景十分廣闊。用戶可以利用它自動下電商訂單、查詢天氣,甚至操控實體機器人。在真實象棋游戲中,Magma也能為用戶提供助力。此外,Magma還能夠幫助AI驅動的助手或機器人更好地理解周圍環境,并采取相應行動。例如,它可以幫助家用機器人學習整理新物品,或為虛擬助手生成用戶界面導航說明。





京公網安備 11011402013531號