谷歌版兩門「小鋼炮」開源！2.7億參數干翻SOTA

IP屬地中國·北京 新智元 時間：2025-12-19 14:14:58

新智元報道
編輯：定慧
谷歌這波像開了「大小號雙修」：前腳用Gemini把大模型戰場攪翻，后腳甩出兩位端側「師兄弟」：一個走復古硬核架構回歸，一個專職教AI「別光會聊，趕緊去干活」。手機里的智能體中樞，要開始卷起來了。
谷歌是真的底蘊深厚啊～
剛剛在「大模型」領域用Gemini 3 Pro?Flash重挫了OpenAI銳氣后，馬不停蹄繼續在端側「小模型」發力！
昨天夜里，一口氣又放出新的兩個技術博客，全是和端側相關的。
一個是T5Gemma 2，一個專門的底層架構創新，首個多模態長上下文碼器-解碼器模型開源，最小是270M–270M。
另一個是FunctionGemma，專為函數調用優化的270M（2.7億參數）模型，可在手機、瀏覽器及其他設備上運行。

左右滑動查看
T5Gemma 2和FunctionGemma都來自Gemma 3家族，相對于Gemini這種「大模型」，Gemma就是「小模型」。
這兩個雖然都是小模型，但是他們的關系有點類似同門師兄弟，但專攻方向不同。
T5Gemma 2專注于架構效率與多模態（Encoder-Decoder架構回歸）。
而FunctionGemma專注于智能體與工具使用（Function Calling能力）。
T5Gemma 2和現在流行的LLM的架構不同，可以理解為AI技術領域「另一條路」。

論文地址：https://arxiv.org/pdf/2512.14856
谷歌開源了T5Gemma 2：270M–270M、1B–1B以及4B–4B三種規模的預訓練模型。

開源地址：https://huggingface.co/collections/google/t5gemma-2
FunctionGemma則是技能變體，它是對模型「技能」的專項訓練。
有點類似把一個大模型里所有知識類的能力都剝離掉，只保留針對性的函數調用功能。

開源地址：https://blog.google/technology/developers/functiongemma/
T5Gemma系列深層技術解析
先看下T5Gemma 2這種「新結構」的優勢：
強大的多模態性能：在多個基準測試中超越谷歌自己的Gemma 3。
全面提升的通用能力：在代碼、推理和多語言等任務上，T5Gemma 2整體上優于對應規模的Gemma 3模型。
卓越的長上下文能力：相較于Gemma 3和第一代T5Gemma，在生成質量上取得了顯著提升。

與T5Gemma類似，T5Gemma 2在預訓練階段的性能或超過Gemma 3對應體量模型，而在后訓練階段則取得了顯著更優的表現。

左右滑動查看

想要理解為什么谷歌要搞T5Gemma，就需要看看目前大模型技術路線演變的核心脈絡。
T5Gemma算得上是大模型領域的「古典主義復興」。
在當今GPT、Llama等Decoder-only（僅解碼器）架構占主導的時代，T5Gemma 2是對經典Transformer架構中Encoder-Decoder（編碼器-解碼器）路線的回歸與現代化改造。
我們現在熟知的GPT、Gemini、DeepSeek都是Decoder-only（僅解碼器）架構。
GPT系列（OpenAI）：從GPT-1到現在的GPT-4o，全是Decoder-only。
DeepSeek：無論是DeepSeek-V2還是最新的V3，核心都是Decoder-only（結合了MoE混合專家技術）。
Llama（meta）：它是目前開源界Decoder-only的標桿。
Gemini（谷歌）：主線模型（Pro/Flash）主要是Decoder-only。
目前叫得上名字的、用來「聊天」的超級模型，幾乎清一色全是Decoder-only。
為什么說T5Gemma 2是「回歸」？
這就要說到Transformer的分家史。
要理解「回歸」，得先看它們當初是怎么「分家」的。
2017年谷歌發布《Attention Is All You Need》論文提出Transformer時，祖師爺原本是Encoder-Decoder（編碼器-解碼器）全套架構。
但后來，家族分成了三個流派：
流派A：Encoder-only（只用編碼器）
代表人物：BERT。
特長：只能「讀」，不能「寫」。它極其擅長做選擇題、分類、情感分析，但你讓它寫作文，它憋不出來。
流派B：Decoder-only（只用解碼器）
代表人物：GPT。
特長：只能「猜下一個字」。雖然它看上文不如Encoder那么全面（只能看左邊，不能看右邊），但它天生會說話，而且人們發現只要把這玩意兒做得足夠大，它居然產生了智能（涌現）。
也就是「意外的」開啟了我們這個AI時代（笑。
流派C：Encoder-Decoder（全套保留）
代表人物：T5（谷歌），BART。
特長：既能讀又能寫。也就是現在的T5Gemma 2所在的流派。
T5的全稱是Text-to-Text Transfer Transformer，連著5個T，所以叫T5。
那為什么Decoder-only（GPT流派）后來一統天下了？

訓練簡單粗暴：
只需要把網上的海量文字扔進去，讓它不停預測下一個字就行（自監督學習）。
上限極高：
也就是Scaling Law（縮放定律）。人們發現Decoder-only模型越做越大，智商提升得最明顯，而且工程上更容易堆算力。
Encoder-Decoder被冷落：
因為它結構復雜（有兩套參數），訓練起來比Decoder-only稍微麻煩點，且在做超大模型（千億參數）時，性價比似乎不如純Decoder那么極致。

所以也只有財大氣粗的谷歌能有精力回歸這個經典模型，繼續投入搞研發。
谷歌在全世界都瘋狂卷Decoder-only的時候，突然殺了個回馬槍。

既然Decoder-only這么強，為什么要改回Encoder-Decoder？
因為谷歌發現了Decoder-only的幾個死穴，而這些死穴正好是Encoder-Decoder的強項：
「幻覺」問題（瞎編）：
Decoder-only（GPT）
是邊寫邊想，有時候寫嗨了就收不住，容易一本正經胡說八道。
Encoder-Decoder（T5）
是「先讀懂（Encoder）-再動筆（Decoder）」。
Encoder會強迫模型先把你的輸入徹底消化一遍，生成一個完整的「中心思想向量」，然后再讓Decoder翻譯出來。
這種機制天生更嚴謹，幻覺更少。
在多模態方面的天然優勢：
你要讓模型看圖，Encoder（編碼器）是最好的「眼睛」。
T5Gemma 2可以直接把圖像信號喂給Encoder，這比強行塞給Decoder-only處理要順暢得多。
端側效率（手機上跑）：
在手機這種算力有限的地方，如果你只是做翻譯、摘要、指令執行，Encoder-Decoder往往能用更少的參數（更小的顯存）達到和巨大Decoder-only模型一樣的效果。
T5Gemma 2的出現，不是要推翻GPT，而是在特定領域（比如手機端、翻譯、工具調用、嚴謹推理）復興了Encoder-Decoder架構。

谷歌并未從零開始訓練T5Gemma，而是采用了一種被稱為「模型適配」（Model Adaptation）的高效技術。
該技術的核心在于利用已經過數萬億標記訓練的Gemma 2或Gemma 3解碼器模型作為種子，將其權重映射到新的編碼器-解碼器結構中。
這種做法極大地降低了計算成本，同時讓模型能夠繼承原有的語言理解能力。
FunctionGemma：智能體的專用大腦
如果T5Gemma是從底層架構的創新，那么FunctionGemma就是從功能實現上的創新。
FunctionGemma是為了解決大模型落地中最痛的點——「不僅要能聊，還要能干活」而設計的。

FunctionCalling（函數調用）：普通模型在被要求「定個鬧鐘」或「查天氣」時，往往只能瞎編。FunctionGemma經過專門的微調，能夠精準地輸出結構化的數據（如JSON），去調用外部的API或工具。
Agent（智能體）優化：它是為AIAgent設計的，擅長多步驟推理和執行任務。
極致輕量化：這意味它可以直接跑在手機、甚至更低功耗的邊緣設備上，作為系統的「控制中樞」。
適用場景：手機語音助手、家庭自動化控制、端側AI Agent、API調度中心。

FunctionGemma并非僅僅是Gemma家族的一個「縮小版」，而是一個專門設計的「神經路由器」，旨在解決云端大模型在延遲、隱私和成本上的固有缺陷。
從對話到行動的范式躍遷
在過去的一年中，大語言模型（LLM）的發展主要集中在提升模型的對話能力、知識廣度以及多模態理解力上。
然而，隨著應用場景的深入，開發者社區最迫切的需求已從「能聊天的AI」轉向「能干活的AI」。
這種從「對話式接口」向「主動體」的轉變，要求模型不僅要理解自然語言，還要能精準地操作軟件接口、執行多步工作流并與物理世界交互。
FunctionGemma的推出正是為了響應這一需求。

作為Gemma 3家族中最小的成員，它拋棄了通用知識的廣度，換取了對函數調用（Function Calling）這一特定任務的極致優化。
這種「特種兵」式的模型設計思路，代表了AI工程化的一個新方向：即通過模型的小型化和專業化，將智能下沉至網絡的邊緣——用戶的手機、IoT設備乃至瀏覽器中。
FunctionGemma之所以能在極小的參數規模下實現高性能的函數調用，依賴于其獨特的架構設計和訓練策略。
它不是通過簡單的壓縮得到的，而是基于Gemma 3架構進行了針對性的「壓縮」，專注于句法結構的精確性和邏輯判斷的確定性。
FunctionGemma擁有2.7億（270M）參數。
在當今動輒數千億參數的模型時代，這一數字顯得微不足道，連「大模型」零頭都不到，但其設計哲學卻極具顛覆性。
通常模型的推理能力隨著參數量的增加而涌現（Scaling Laws）。
然而，FunctionGemma打破了這一常規，證明了在特定領域（Domain-Specific），小模型可以通過高質量數據的微調達到甚至超越大模型的表現。
雖然官方未披露具體的蒸餾細節，但270M的規模暗示了大量的通用世界知識被剔除。
模型不再需要知道「法國的首都是哪里」或「莎士比亞的生平」，它只需要知道如何解析JSON、如何匹配函數簽名以及如何處理參數類型。
發力移動端
「在手機上能運行嗎？」這是用戶最關心的問題。
答案不僅是肯定的，而且FunctionGemma正是為此而生。
在移動設備上，隨機存取存儲器（RAM）是最寶貴的資源。
Android系統的低內存查殺機制會毫不留情地關閉占用內存過大的后臺進程。
FunctionGemma 270M在FP16精度下的權重大小約為540MB。
對于擁有8GB或12GB內存、甚至24GB的現代Android旗艦機，這僅占總內存的5%-7%，完全可以在后臺常駐。
Int8/Int4（量化）：為了進一步降低功耗和內存占用，端側部署通常使用量化技術。
Int8量化：模型大小降至約270MB。
Int4量化：模型大小降至約135MB。
這意味著它可以在入門級設備甚至嵌入式設備上流暢運行。
谷歌為何要發布這樣一個「小」模型？
這背后隱藏著其對未來AI計算架構的深刻思考，以及在移動操作系統控制權爭奪戰中的防御性布局。
這是FunctionGemma最核心的戰略價值。
在當前的AI應用中，將所有請求都發送到云端大模型既昂貴又緩慢。
移動互聯網的下一個階段
移動互聯網的下一個階段是意圖驅動（Intent-Driven）的。
意圖驅動（Intent-Driven），用戶不再通過點擊圖標打開APP，而是直接表達意圖。
現狀：Siri和谷歌Assistant，以及類似手機助手長期以來受限于硬編碼的指令集，只能通過特定接口調用APP的有限功能。
FunctionGemma通過讓模型直接學習APP的API定義，FunctionGemma試圖讓AI成為通用的UI。
開發者只需要暴露工具（Tools），FunctionGemma就能理解并操作這些工具。
谷歌的野心是通過開源FunctionGemma，谷歌實際上是在制定一套AI與APP交互的標準協議。
如果所有Android開發者都按照FunctionGemma的格式定義工具，那么谷歌的Android系統將成為世界上最強大的智能體平臺，進一步加深其護城河。
為了驗證FunctionGemma的能力，谷歌提供了兩個典型的參考實現，展示了其在游戲和系統控制領域的潛力。
場景描述：用戶用自然語言發出指令，模型將其轉換為Android系統意圖。
技術細節：
多參數提取：用戶說「給John發郵件說我遲到了」，模型提取recipient="John"，body="我遲到了"，action="send_email"。
歧義處理：如果用戶只說「發郵件」，模型可能會調用ask_clarification函數，反問用戶「發給誰？」。這種多輪對話能力是硬編碼助手無法比擬的。
性能對比：經微調的FunctionGemma在此任務上的準確率達到85%，遠超未微調的基座模型（58%）。這證明了在端側垂直領域，小模型完全可以替代大模型。

「Tiny Garden」這個Demo展示了FunctionGemma如何驅動游戲邏輯。
場景：一個語音控制的種田游戲。用戶說「在頂排種滿向日葵，然后給它們澆水」。
任務分解（TaskDecomposition）：模型不僅要識別意圖，還要進行邏輯推理。它需要將這一句話拆解為一系列函數調用：

select_crop（type="sunflower"）
plant（row=0，col=0）...plant（row=0，col=N）
water（row=0）

完全離線：整個過程無需聯網，這對于手游體驗至關重要，因為網絡延遲會導致游戲操作的不流暢。

對于開發者而言，FunctionGemma提供了一種低成本、高隱私的方案，將Agent能力集成到普通APP中，無需昂貴的服務器開銷。它使得「語音控制一切」不再是巨頭的專利，而是每個APP都能擁有的標準功能。
對于手機廠商而言，270M的參數量是完美的「甜點」——它既能利用現有的NPU硬件，又不會過度擠占系統資源，為打造「AI原生OS」提供了理想的地基。
對于谷歌而言，這是其在AI時代捍衛Android生態控制權的關鍵一步。
未來，可以預見，基于FunctionGemma的變體將無處不在：在你的智能手表里處理健康數據，在你的路由器里優化網絡設置，甚至在你的汽車里調節空調溫度。
AI將不再是一個需要「訪問」的網站，而是一種像電力一樣，無形卻無處不在的基礎設施。
參考資料：
https://blog.google/technology/developers/functiongemma/
https://blog.google/technology/developers/t5gemma-2/
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標，鎖定新智元極速推送！

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

豆包視頻生成大升級，網友們的腦洞終于自帶音效了。

不玩“虛”的！硬核兌現！上海元宇宙交出3年實戰答卷→

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰

一加中國區總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會2025：Data+AI雙引擎實效落地，共筑智能時代新零售

全站最新

豆包視頻生成大升級，網友們的腦洞終于自帶音效了。

不玩“虛”的！硬核兌現！上海元宇宙交出3年實戰答卷→

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰

熱門推薦

豆包視頻生成大升級，網友們的腦洞終于自帶音效了。

阿里辟謠

不玩“虛”的！硬核兌現！上海元宇宙交出3年實戰答卷→

今年創紀錄！字節跳動利潤據稱有望達500億美元

谷歌云深化與Palo Alto Networks合作，簽署近100億美元AI安全大單

羅永浩投訴上海電信千兆寬帶網速慢！公司稱有多種原因可維修

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰

一加中國區總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會2025：Data+AI雙引擎實效落地，共筑智能時代新零售

安卓上線“擴展深色主題”設置，專治堅守淺色UI的“不聽話”App

國產GPU四小龍IPO齊活！最后一個剛剛公布

蚌埠滕湖機場完成驗證試飛！

中國新礦物團隊再添一員！“金秀礦”正式命名背后有多難？｜封面專訪

羅永浩吐槽后，上海電信：WIFI速率不達標原因很多