5月13日,蘋果機器學習團隊在GitHub上發布并開源了一款新型視覺語言模型(VLM)——FastVLM。該模型提供0.5B、1.5B和7B三個版本,基于蘋果自研的MLX框架開發,并借助LLaVA代碼庫進行訓練,專為Apple Silicon設備的端側AI運算進行了優化。

FastVLM的核心是一個名為FastViTHD的混合視覺編碼器。該編碼器專為在高分辨率圖像上實現高效的VLM性能而設計,其處理速度較同類模型提升3.2倍,體積卻僅有3.6分之一。FastViTHD通過減少令牌輸出量并顯著縮短編碼時間,實現了性能的飛躍。
根據技術文檔顯示,FastVLM在保持精度的前提下,實現了高分辨率圖像處理的近實時響應,同時所需的計算量比同類模型要少得多。最小模型版本(FastVLM-0.5B)的首詞元響應速度比LLaVA-OneVision-0.5B模型快85倍,視覺編碼器體積縮小3.4倍。搭配Qwen2-7B大語言模型版本,使用單一圖像編碼器即超越Cambrian-1-8B等近期研究成果,首詞元響應速度提升7.9倍。
蘋果技術團隊指出,基于對圖像分辨率、視覺延遲、詞元數量與LLM大小的綜合效率分析,他們開發出了FastVLM。該模型在延遲、模型大小和準確性之間實現了最優權衡。該技術的應用場景指向蘋果正在研發的智能眼鏡類穿戴設備。多方信息顯示,蘋果計劃于2027年推出對標meta Ray-Bans的AI眼鏡,同期或將發布搭載攝像頭的設備。
FastVLM的本地化處理能力可有效支持此類設備脫離云端實現實時視覺交互。MLX框架允許開發者在Apple設備本地訓練和運行模型,同時兼容主流AI開發語言。FastVLM的推出證實蘋果正構建完整的端側AI技術生態。





京公網安備 11011402013531號