![]()
新智元報道
編輯:定慧
谷歌這波像開了「大小號雙修」:前腳用Gemini把大模型戰場攪翻,后腳甩出兩位端側「師兄弟」:一個走復古硬核架構回歸,一個專職教AI「別光會聊,趕緊去干活」。手機里的智能體中樞,要開始卷起來了。
谷歌是真的底蘊深厚啊~
剛剛在「大模型」領域用Gemini 3 Pro?Flash重挫了OpenAI銳氣后,馬不停蹄繼續在端側「小模型」發力!
昨天夜里,一口氣又放出新的兩個技術博客,全是和端側相關的。
一個是T5Gemma 2,一個專門的底層架構創新,首個多模態長上下文碼器-解碼器模型開源,最小是270M–270M。
另一個是FunctionGemma,專為函數調用優化的270M(2.7億參數)模型,可在手機、瀏覽器及其他設備上運行。
![]()
![]()
左右滑動查看
T5Gemma 2和FunctionGemma都來自Gemma 3家族,相對于Gemini這種「大模型」,Gemma就是「小模型」。
這兩個雖然都是小模型,但是他們的關系有點類似同門師兄弟,但專攻方向不同。
T5Gemma 2專注于架構效率與多模態(Encoder-Decoder架構回歸)。
而FunctionGemma專注于智能體與工具使用(Function Calling能力)。
T5Gemma 2和現在流行的LLM的架構不同,可以理解為AI技術領域「另一條路」。
![]()
論文地址:https://arxiv.org/pdf/2512.14856
谷歌開源了T5Gemma 2:270M–270M、1B–1B以及4B–4B三種規模的預訓練模型。
![]()
開源地址:https://huggingface.co/collections/google/t5gemma-2
FunctionGemma則是技能變體,它是對模型「技能」的專項訓練。
有點類似把一個大模型里所有知識類的能力都剝離掉,只保留針對性的函數調用功能。
![]()
開源地址:https://blog.google/technology/developers/functiongemma/
T5Gemma系列深層技術解析
先看下T5Gemma 2這種「新結構」的優勢:
強大的多模態性能:在多個基準測試中超越谷歌自己的Gemma 3。
全面提升的通用能力:在代碼、推理和多語言 等任務上,T5Gemma 2整體上優于對應規模的Gemma 3模型。
卓越的長上下文能力:相較于Gemma 3和第一代T5Gemma,在生成質量上取得了顯著提升。
![]()
與T5Gemma類似,T5Gemma 2在預訓練階段的性能或超過Gemma 3對應體量模型,而在后訓練階段則取得了顯著更優的表現。
![]()
![]()
左右滑動查看
![]()
想要理解為什么谷歌要搞T5Gemma,就需要看看目前大模型技術路線演變的核心脈絡。
T5Gemma算得上是大模型領域的「古典主義復興」。
在當今GPT、Llama等Decoder-only(僅解碼器)架構占主導的時代,T5Gemma 2是對經典Transformer架構中Encoder-Decoder(編碼器-解碼器)路線的回歸與現代化改造。
我們現在熟知的GPT、Gemini、DeepSeek都是Decoder-only(僅解碼器)架構。
GPT系列(OpenAI):從GPT-1到現在的GPT-4o,全是Decoder-only。
DeepSeek:無論是DeepSeek-V2還是最新的V3,核心都是Decoder-only(結合了MoE混合專家技術)。
Llama(meta):它是目前開源界Decoder-only的標桿。
Gemini(谷歌):主線模型(Pro/Flash)主要是Decoder-only。
目前叫得上名字的、用來「聊天」的超級模型,幾乎清一色全是Decoder-only。
為什么說T5Gemma 2是「回歸」?
這就要說到Transformer的分家史。
要理解「回歸」,得先看它們當初是怎么「分家」的。
2017年谷歌發布《Attention Is All You Need》論文提出Transformer時,祖師爺原本是Encoder-Decoder(編碼器-解碼器)全套架構。
但后來,家族分成了三個流派:
流派A:Encoder-only(只用編碼器)
代表人物:BERT。
特長:只能「讀」,不能「寫」。它極其擅長做選擇題、分類、情感分析,但你讓它寫作文,它憋不出來。
流派B:Decoder-only(只用解碼器)
代表人物:GPT。
特長:只能「猜下一個字」。雖然它看上文不如Encoder那么全面(只能看左邊,不能看右邊),但它天生會說話,而且人們發現只要把這玩意兒做得足夠大,它居然產生了智能(涌現)。
也就是「意外的」開啟了我們這個AI時代(笑。
流派C:Encoder-Decoder(全套保留)
代表人物:T5(谷歌),BART。
特長:既能讀又能寫。也就是現在的T5Gemma 2所在的流派。
T5的全稱是Text-to-Text Transfer Transformer,連著5個T,所以叫T5。
那為什么Decoder-only(GPT流派)后來一統天下了?
訓練簡單粗暴:
只需要把網上的海量文字扔進去,讓它不停預測下一個字就行(自監督學習)。
上限極高:
也就是Scaling Law(縮放定律)。人們發現Decoder-only模型越做越大,智商提升得最明顯,而且工程上更容易堆算力。
Encoder-Decoder被冷落:
因為它結構復雜(有兩套參數),訓練起來比Decoder-only稍微麻煩點,且在做超大模型(千億參數)時,性價比似乎不如純Decoder那么極致。
所以也只有財大氣粗的谷歌能有精力回歸這個經典模型,繼續投入搞研發。
谷歌在全世界都瘋狂卷Decoder-only的時候,突然殺了個回馬槍。
![]()
既然Decoder-only這么強,為什么要改回Encoder-Decoder?
因為谷歌發現了Decoder-only的幾個死穴,而這些死穴正好是Encoder-Decoder的強項:
「幻覺」問題(瞎編):
Decoder-only(GPT)
是邊寫邊想,有時候寫嗨了就收不住,容易一本正經胡說八道。
Encoder-Decoder(T5)
是「先讀懂(Encoder)-再動筆(Decoder)」。
Encoder會強迫模型先把你的輸入徹底消化一遍,生成一個完整的「中心思想向量」,然后再讓Decoder翻譯出來。
這種機制天生更嚴謹,幻覺更少。
在多模態方面的天然優勢:
你要讓模型看圖,Encoder(編碼器)是最好的「眼睛」。
T5Gemma 2可以直接把圖像信號喂給Encoder,這比強行塞給Decoder-only處理要順暢得多。
端側效率(手機上跑):
在手機這種算力有限的地方,如果你只是做翻譯、摘要、指令執行,Encoder-Decoder往往能用更少的參數(更小的顯存)達到和巨大Decoder-only模型一樣的效果。
T5Gemma 2的出現,不是要推翻GPT,而是在特定領域(比如手機端、翻譯、工具調用、嚴謹推理)復興了Encoder-Decoder架構。
![]()
谷歌并未從零開始訓練T5Gemma,而是采用了一種被稱為「模型適配」(Model Adaptation)的高效技術。
該技術的核心在于利用已經過數萬億標記訓練的Gemma 2或Gemma 3解碼器模型作為種子,將其權重映射到新的編碼器-解碼器結構中。
這種做法極大地降低了計算成本,同時讓模型能夠繼承原有的語言理解能力。
FunctionGemma:智能體的專用大腦
如果T5Gemma是從底層架構的創新,那么FunctionGemma就是從功能實現上的創新。
FunctionGemma是為了解決大模型落地中最痛的點——「不僅要能聊,還要能干活」而設計的。
![]()
FunctionCalling(函數調用):普通模型在被要求「定個鬧鐘」或「查天氣」時,往往只能瞎編。FunctionGemma經過專門的微調,能夠精準地輸出結構化的數據(如JSON),去調用外部的API或工具。
Agent(智能體)優化:它是為AIAgent設計的,擅長多步驟推理和執行任務。
極致輕量化:這意味它可以直接跑在手機、甚至更低功耗的邊緣設備上,作為系統的「控制中樞」。
適用場景:手機語音助手、家庭自動化控制、端側AI Agent、API調度中心。
![]()
FunctionGemma并非僅僅是Gemma家族的一個「縮小版」,而是一個專門設計的「神經路由器」,旨在解決云端大模型在延遲、隱私和成本上的固有缺陷。
從對話到行動的范式躍遷
在過去的一年中,大語言模型(LLM)的發展主要集中在提升模型的對話能力、知識廣度以及多模態理解力上。
然而,隨著應用場景的深入,開發者社區最迫切的需求已從「能聊天的AI」轉向「能干活的AI」。
這種從「對話式接口」向「主動體」的轉變,要求模型不僅要理解自然語言,還要能精準地操作軟件接口、執行多步工作流并與物理世界交互。
FunctionGemma的推出正是為了響應這一需求。
![]()
作為Gemma 3家族中最小的成員,它拋棄了通用知識的廣度,換取了對函數調用(Function Calling)這一特定任務的極致優化。
這種「特種兵」式的模型設計思路,代表了AI工程化的一個新方向:即通過模型的小型化和專業化,將智能下沉至網絡的邊緣——用戶的手機、IoT設備乃至瀏覽器中。
FunctionGemma之所以能在極小的參數規模下實現高性能的函數調用,依賴于其獨特的架構設計和訓練策略。
它不是通過簡單的壓縮得到的,而是基于Gemma 3架構進行了針對性的「壓縮」,專注于句法結構的精確性和邏輯判斷的確定性。
FunctionGemma擁有2.7億(270M)參數。
在當今動輒數千億參數的模型時代,這一數字顯得微不足道,連「大模型」零頭都不到,但其設計哲學卻極具顛覆性。
通常模型的推理能力隨著參數量的增加而涌現(Scaling Laws)。
然而,FunctionGemma打破了這一常規,證明了在特定領域(Domain-Specific),小模型可以通過高質量數據的微調達到甚至超越大模型的表現。
雖然官方未披露具體的蒸餾細節,但270M的規模暗示了大量的通用世界知識被剔除。
模型不再需要知道「法國的首都是哪里」或「莎士比亞的生平」,它只需要知道如何解析JSON、如何匹配函數簽名以及如何處理參數類型。
發力移動端
「在手機上能運行嗎?」這是用戶最關心的問題。
答案不僅是肯定的,而且FunctionGemma正是為此而生。
在移動設備上,隨機存取存儲器(RAM)是最寶貴的資源。
Android系統的低內存查殺機制會毫不留情地關閉占用內存過大的后臺進程。
FunctionGemma 270M在FP16精度下的權重大小約為540MB。
對于擁有8GB或12GB內存、甚至24GB的現代Android旗艦機,這僅占總內存的5%-7%,完全可以在后臺常駐。
Int8/Int4(量化):為了進一步降低功耗和內存占用,端側部署通常使用量化技術。
Int8量化:模型大小降至約270MB。
Int4量化:模型大小降至約135MB。
這意味著它可以在入門級設備甚至嵌入式設備上流暢運行。
谷歌為何要發布這樣一個「小」模型?
這背后隱藏著其對未來AI計算架構的深刻思考,以及在移動操作系統控制權爭奪戰中的防御性布局。
這是FunctionGemma最核心的戰略價值。
在當前的AI應用中,將所有請求都發送到云端大模型既昂貴又緩慢。
移動互聯網的下一個階段
移動互聯網的下一個階段是意圖驅動(Intent-Driven)的。
意圖驅動(Intent-Driven),用戶不再通過點擊圖標打開APP,而是直接表達意圖。
現狀:Siri和谷歌Assistant,以及類似手機助手長期以來受限于硬編碼的指令集,只能通過特定接口調用APP的有限功能。
FunctionGemma通過讓模型直接學習APP的API定義,FunctionGemma試圖讓AI成為通用的UI。
開發者只需要暴露工具(Tools),FunctionGemma就能理解并操作這些工具。
谷歌的野心是通過開源FunctionGemma,谷歌實際上是在制定一套AI與APP交互的標準協議。
如果所有Android開發者都按照FunctionGemma的格式定義工具,那么谷歌的Android系統將成為世界上最強大的智能體平臺,進一步加深其護城河。
為了驗證FunctionGemma的能力,谷歌提供了兩個典型的參考實現,展示了其在游戲和系統控制領域的潛力。
場景描述:用戶用自然語言發出指令,模型將其轉換為Android系統意圖。
技術細節:
多參數提取:用戶說「給John發郵件說我遲到了」,模型提取recipient="John",body="我遲到了",action="send_email"。
歧義處理:如果用戶只說「發郵件」,模型可能會調用ask_clarification函數,反問用戶「發給誰?」。這種多輪對話能力是硬編碼助手無法比擬的。
性能對比:經微調的FunctionGemma在此任務上的準確率達到85%,遠超未微調的基座模型(58%)。這證明了在端側垂直領域,小模型完全可以替代大模型。
![]()
「Tiny Garden」這個Demo展示了FunctionGemma如何驅動游戲邏輯。
場景:一個語音控制的種田游戲。用戶說「在頂排種滿向日葵,然后給它們澆水」。
任務分解(TaskDecomposition):模型不僅要識別意圖,還要進行邏輯推理。它需要將這一句話拆解為一系列函數調用:
select_crop(type="sunflower")
plant(row=0,col=0)...plant(row=0,col=N)
water(row=0)
完全離線:整個過程無需聯網,這對于手游體驗至關重要,因為網絡延遲會導致游戲操作的不流暢。
![]()
對于開發者而言,FunctionGemma提供了一種低成本、高隱私的方案,將Agent能力集成到普通APP中,無需昂貴的服務器開銷。它使得「語音控制一切」不再是巨頭的專利,而是每個APP都能擁有的標準功能。
對于手機廠商而言,270M的參數量是完美的「甜點」——它既能利用現有的NPU硬件,又不會過度擠占系統資源,為打造「AI原生OS」提供了理想的地基。
對于谷歌而言,這是其在AI時代捍衛Android生態控制權的關鍵一步。
未來,可以預見,基于FunctionGemma的變體將無處不在:在你的智能手表里處理健康數據,在你的路由器里優化網絡設置,甚至在你的汽車里調節空調溫度。
AI將不再是一個需要「訪問」的網站,而是一種像電力一樣,無形卻無處不在的基礎設施。
參考資料:
https://blog.google/technology/developers/functiongemma/
https://blog.google/technology/developers/t5gemma-2/
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!





京公網安備 11011402013531號