11 月 22 日消息,科技媒體 9to5Mac 昨日(11 月 21 日)發(fā)布博文,報(bào)道稱在最新公布的研究報(bào)告中,蘋果指出大語言模型(LLM)可通過分析音頻和運(yùn)動(dòng)數(shù)據(jù)的文本描述,精準(zhǔn)識(shí)別用戶活動(dòng),未來可能會(huì)應(yīng)用于 Apple Watch 上。
這項(xiàng)名為“后期多模態(tài)傳感器融合”(Late Multimodal Sensor Fusion)的技術(shù),主要結(jié)合 LLM 的推理能力與傳統(tǒng)傳感器數(shù)據(jù),即使在傳感器信息不足的情況下,也能精確判斷用戶正在進(jìn)行的具體活動(dòng)。
研究的核心方法頗具新意。大語言模型并未直接處理用戶的原始音頻錄音或運(yùn)動(dòng)數(shù)據(jù),而是分析由專門的小型模型生成的文本描述。

具體來說,音頻模型會(huì)生成描述聲音環(huán)境的文字(如“水流聲”),而基于慣性測量單元(IMU)的運(yùn)動(dòng)模型則會(huì)輸出動(dòng)作類型的預(yù)測文本。這種方式不僅保護(hù)了用戶隱私,還驗(yàn)證了 LLM 在理解和融合多源文本信息以進(jìn)行復(fù)雜推理方面的強(qiáng)大能力。
為驗(yàn)證該方法,研究團(tuán)隊(duì)使用了包含數(shù)千小時(shí)第一人稱視角視頻的 Ego4D 數(shù)據(jù)集。他們從中篩選出 12 種日常活動(dòng),包括吸塵、烹飪、洗碗、打籃球、舉重等,每段樣本時(shí)長 20 秒。
隨后,研究人員將小模型生成的文本描述輸入給谷歌的 Gemini-2.5-pro 和阿里的 Qwen-32B 等多個(gè)大語言模型,并測試其在“零樣本”(無任何示例)和“單樣本”(提供一個(gè)示例)兩種情況下的識(shí)別準(zhǔn)確率。
測試結(jié)果顯示,即使沒有任何針對性地訓(xùn)練,大語言模型在活動(dòng)識(shí)別任務(wù)中的表現(xiàn)也遠(yuǎn)超隨機(jī)猜測的水平,其 F1 分?jǐn)?shù)(衡量精確率和召回率的指標(biāo))表現(xiàn)優(yōu)異。當(dāng)獲得一個(gè)參考示例后,模型的準(zhǔn)確度還會(huì)進(jìn)一步提升。

這項(xiàng)研究表明,利用 LLM 進(jìn)行后期融合,可以有效開發(fā)出強(qiáng)大的多模態(tài)應(yīng)用,而無需為特定場景開發(fā)專門模型,從而節(jié)省了額外的內(nèi)存和計(jì)算資源。蘋果公司還公開了實(shí)驗(yàn)數(shù)據(jù)和代碼,以供其他研究者復(fù)現(xiàn)和驗(yàn)證。





京公網(wǎng)安備 11011402013531號(hào)