商湯科技聯(lián)合南洋理工大學(xué) S-Lab 發(fā)布行業(yè)首個原生多模態(tài)架構(gòu) NEO,并同步開源2B 與9B 兩款模型。新架構(gòu)摒棄“視覺編碼器 + 投影器 + 語言模型”的傳統(tǒng)三段式方案,從注意力機制、位置編碼到語義映射全部重寫,官方稱在同等性能下數(shù)據(jù)需求僅為業(yè)界平均的1/10,首次實現(xiàn)“像素到 Token”的連續(xù)映射。
據(jù)商湯技術(shù)負責(zé)人介紹,NEO 通過原生圖塊嵌入層直接讀取像素,取消獨立圖像 Tokenizer;三維旋轉(zhuǎn)位置編碼(Native-RoPE)在同一向量空間內(nèi)同時表達文本與視覺時空頻率;多頭注意力采用“視覺雙向 + 文本自回歸”混合計算,空間結(jié)構(gòu)關(guān)聯(lián)得分提升24%。實測顯示,在0.6B-8B 參數(shù)區(qū)間內(nèi),NEO 在 ImageNet、COCO 與 Kinetics-400上取得 SOTA,邊緣設(shè)備推理延遲低于80毫秒。
GitHub 已公開模型權(quán)重與訓(xùn)練腳本,商湯計劃明年第一季度開源3D 感知與視頻理解版本。業(yè)內(nèi)人士認為,NEO 的“深層融合”路線有望結(jié)束多模態(tài)“拼積木”時代,為終端小模型提供新的性能基線。





京公網(wǎng)安備 11011402013531號