![]()
新智元報道
編輯:元宇
AI不應是巨頭游戲,模型也不是越大越聰明。近日,「Transformer八子」中的Ashish Vaswani和Parmar共同推出了一個8B的開源小模型,劍指Scaling Law軟肋,為輕量化、開放式AI探索了新方向。
近期,一個80億參數的「小模型」引發AI圈熱議。
這個名為Rnj-1的開源模型,由Ashish Vaswani與Niki Parmar創辦的Essential AI Labs推出。
![]()
他們是2017年那篇著名論文《注意力就是你所需要的一切》(Attention is All You Need)作者中的兩位。
![]()
以上八位作者同等貢獻 ,其中Ashish與Illia共同設計并實現了首個Transformer 模型,并深度參與了全部研究工作。
![]()
![]()
![]()
Ashish Vaswani
Niki在研究的早期階段負責設計、實現、調優并評估了大量模型變體,是模型架構探索與實驗驗證的核心貢獻者之一。
![]()
Niki Parmar
ChatGPT、Gemini、Claude、Llama……幾乎所有我們熟知的大模型都采用了Transformer框架。
這些早期玩家們在幾年后將整個行業引向了比拼參數規模的AI軍備競賽。
前不久,Google DeepMind CEO哈薩比斯(Demis Hassabis)還斷言,要實現通用人工智能(AGI),當下主流大模型必須把「擴規模」這件事推到極致。
他所指的「擴規模」是更多數據、更多算力、更大的模型,并強調它「至少是通往 AGI 的關鍵組件,甚至可能就是全部路徑」。
哈薩比斯的觀點,在一定程度上代表了大模型領域由Transformer和Scaling Law所催生的「模型越大越強」的主流觀點。
7年后,同為Transformer論文的作者,Ashish Vaswani和Niki Parmar開始向這一主流觀點發起了挑戰:
模型不一定越大就越聰明。
![]()
![]()
至少從算力效率的角度來看,就像上面這位網友說的那樣:
「大模型時代已經結束,真正懂行的人打造的小模型時代開始了。」
在ChatGPT、Gemini、Claude之外,以Rnj-1為代表的小模型開辟了另一種思路。
Vaswani的擔憂與Rnj-1的誕生
過去幾年,砸向AI領域的錢越來越多、模型越來越大、訓練越來越昂貴。
Vaswani認為,AI領域巨額資金的涌入可能會妨礙技術本身的發展,因為以利潤為導向的企業逐漸從科學家和學者手中奪取了主導權:
「少數公司掌控著先進AI技術的生產、節奏和方向。他們決定了AI的演化方式,也決定了誰能從中受益……我們不能讓封閉式的AI開發阻礙我們探索新的前沿。」
Vaswani和Parmar希望推動構建一個健康、開放的生態,而不是封閉的塔尖。
Essential AI Labs以及它的首款開源模型Rnj-1正是在這種理念下誕生的。
![]()
Essential AI將構建前沿開源平臺和智能工具作為自己的使命。
Rnj-1的名稱,則是來自著名數學家拉馬努金(Srinivasa Ramanujan)。
據Essential AI官方介紹,這款從零開始訓練的80億參數模型,在代碼、數學與「智能體」推理上可「對齊前沿」水平,還可以在消費級GPU上運行,自由使用與修改。
一把「瑞士軍刀」式的小模型
和動輒萬億參數的前沿大模型相比,Rnj-1并不起眼。
它只是一個80億參數的小模型,僅僅32k的上下文長度,遵循開源Gemma 3架構。
既然不能和比別人比「身板」,就要拼技術。
Rnj-1采用全局自注意力機制(global self-attention)和YaRN技術。
global self-attention好比為模型配備了一雙「全景眼睛」,無論給它多長的輸入,都能一次全部看清。
而YaRN則像是「長距離閱讀輔助器」,讓模型能在32k上下文中仍然保持清晰思考。
Rnj-1的基礎版與指令版在同尺寸開源模型中表現十分亮眼。
![]()
![]()
代碼生成
在Humaneval+、MBPP+ 等算法類代碼任務,以及BigCodeBench這類更廣泛的編程任務中,Rnj-1 base與Instruct的表現能與最強同規模開源模型競爭,有時甚至超越更大的GPT OSS 20B。
智能體能力
Rnj-1 Instruct是Rnj-1重點打造的能力之一, 在智能體式編碼任務中表現尤為突出。
在SWE-bench 上,Rnj-1 Instruct的表現比同尺寸模型強出近一個數量級,已接近大規模模型的水平。
它會用 profiler(性能分析器)檢查瓶頸,然后主動提出優化方案,甚至多輪迭代。
例如在Enamel這一考察高效算法實現的任務中,Rnj-1 Instruct 超過了強力基線。
在伯克利函數調用排行榜(BFCL)中,Rnj-1 Instruct的工具使用能力也領先同類模型。
數學與科學推理
在AIME'25(高難度高中數學)中,Rnj-1 Instruct的數學能力可與最強開源模型匹敵。
Rnj-1 base在Minerva-MATH上也與同規模模型保持一致。
在GPQA-Diamond(包含生物、物理、化學的高難度題目)上,Rnj-1的表現也接近同尺寸模型中的領先水平。
量化穩定,不掉質量
Rnj-1對量化也非常穩健。
這意味著它能在更便宜、更省電的顯卡上跑得很快,模型質量幾乎不受影響,真正實現人人可用。
![]()
從BF16到FP8再到NVFP4,在顯著提升提示密集型工作負載的token吞吐量的同時,模型質量幾乎不受影響。
Token吞吐量數據基于NVIDIA B200 GPU測得,其中KV Cache的數據類型設為FP8,批大小為128。
回到起點,不想再做「宇宙巨獸」了
今年2月,Essential AI做了一個重要的決定:
專注于基礎能力的本身。
在做研究和做產品兩者之間,Essential AI更傾向于提升模型能力。
DeepSeek R1發布后,世界都在討論RL的強大,但Vaswani認為,壓縮是模擬智能的核心要素,而語言模型的預測式預訓練才是更合理的路徑。
Essential AI在早期預訓練階段便觀察到模型出現反思與探索式推理的跡象,這印證了「強預訓練是下游成功基礎」的判斷。
他們認為強大的預訓練本身就會產生推理能力,而不是靠后期堆RL補課。
這是Essential AI迄今為止第一個也是最具根本性的抉擇。
![]()
![]()
上圖記錄了Essential AI在每個階段所取得的進展。
Rnj-1是Essential AI從頭開始訓練的大模型。
他們希望大模型在學習階段不僅是「看很多數據」,而是能自己把數據分類、轉換、混合,形成更好的理解方式。
這樣模型的「可測能力」(比如數學、代碼、科學等可驗證任務)會更強。
研究團隊通過數據分類研究,得到了一種新的「帶重復懲罰的數據分布聚類與混合方法」,這種方法尤其提升了模型在STEM(科學、技術、工程、數學)方面的能力。
此外,訓練模型需要「優化器」來調整參數。
Essential AI證明了Muon優化器相較AdamW更高效, 并開發了適配大模型的分片策略。
Essential AI的研究人員認為,大模型應該不僅能理解代碼,更應該模擬程序在不同環境中的執行行為,Rnj-1在這一方向上進行了大規模嘗試。
為了讓基礎模型學會自動「改進代碼」,研究人員還投入研究「代碼演化」的建模。
這些方向均在小模型上通過驗證,顯著提升了Rnj-1的工程能力。
在預訓練末期,Essential AI團隊確信Rnj-1已具備數學、編程與科學知識等潛在能力。
接下來的問題是如何通過適量監督微調,喚醒其指令遵循與復雜推理能力,并驗證其在長對話與現實難題中的表現。
Essential AI在后訓練方案上借鑒了YaRN長上下文中期訓練、Nemotron以及簡單智能體環境。
其后訓練主要有三項任務:
研究定向數據對推理與智能體能力的影響;
團隊親自「上手體驗」模型,觀察質變;
收集下游反饋,為下一輪預訓練下注提供依據
Vaswani認為,有許多令人難以抗拒的想法正在爭奪研究團隊的注意力。
比如,他們對條件計算、擴展并增強模型處理更長上下文的能力,以及低精度訓練充滿熱情。
在中期內,Essential AI將繼續推進壓縮這一核心理念,拓展計劃模擬的程序行為的類型和范圍,并推動代碼演化。
Vaswani預計,諸如將強化學習等擴展性思路用于培養復雜推理能力的方法,將很快出現在Essential AI的路線圖上。
在官方博客中,Vaswani用先驅計算機科學家Alan Perlis的話表達了自己的心聲:
我認為,在計算機科學領域,我們必須始終讓計算保持趣味性,這一點極其重要……
我認為,我們有責任不斷拓展計算機的邊界,引領它們走向新的方向,并讓這種樂趣持續存在……
最重要的是,我希望我們不要變成傳教士。不要覺得自己像個推銷圣經的推銷員。這世上那樣的人已經太多了。你所了解的計算知識,別人終會學到。不要覺得成功計算的鑰匙只掌握在你手中。
我相信并希望,你手中握有的是智慧:一種能夠超越最初接觸機器時的認知,看到它更多可能性,并讓它變得更強的能力。
開源平臺Essential AI的創建,以及此次Rnj-1的推出,旨在推動美國AI開源領域的發展,搶奪在輕量化開源生態話語權,目前這一領域正由中國企業主導。
開源生態,將推動大模型在「越大越好」行業競爭格局之外,探索開放、輕量化的新路徑,加速AI人人可用時代的到來。
參考資料:
https://www.bloomberg.com/news/articles/2025-12-08/transformer-paper-authors-at-ai-startup-debut-open-source-model?srnd=phx-ai%20
https://www.essential.ai/research/rnj-1
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!





京公網安備 11011402013531號