![]()
作者 | 王兆洋
郵箱 | wangzhaoyang@pingwest.com
1
8%!
最近一個月,基礎模型似乎又有點多起來。但若仔細去看這些模型廠商的動作,大體還是走出了兩條路。
一種是在諸多難點里選擇一個死磕,成為這個單點上的SOTA。這種路線可以快速在開發(fā)者群體留下一個明確的印象,但也可能限制住了一家模型公司的“基座”屬性。另一種則是在各個模態(tài)上全面前進,在一個最全面的基礎模型藍圖里不停交出一個個關鍵拼圖。
已經有了全球最強語音模型和視頻模型的MiniMax就是第二種。而它最新的拼圖,是MiniMax M2。
10月28日,MiniMax正式發(fā)布了MiniMax M2。根據官方的信息,MiniMax-M2是一款專門為coding和agent打造,但同時保持了輕量級和靈敏度的模型。除了基于通用能力上的專門優(yōu)化,它目前的上下文窗口保持了目前此類模型的通用水準,最大輸入token和輸出token總和為200k,最大輸出(max_tokens)為128k。它也提供了開發(fā)者期待的端到端工具使用性能。
![]()
官方定義它是“極具成本效益的模型,提供全球最高性價比和極致速度”。值得注意的是,它的模型為2300億總參數,而激活參數控制在了100億。
在全球評測模型最受認可的,覆蓋了數學、科學與編碼等多個核心領域能力的榜單之一,Artificial Analysis榜單上,M2總分目前位列全球前五。也就是,它是一個在MiniMax過往模型強大的基礎能力基礎上,優(yōu)化了coding和agent能力后,依然可以在綜合能力上不犧牲太多的模型。
而更關鍵的是這一切達成的同時,它的價格再次大幅下降。根據MiniMax的介紹,它在一些任務上的成本只有Claud的8%。
目前MiniMax模型的API價格定在每百萬Token輸入0.3美金/2.1元人民幣,輸出1.2美金/8.4元,同時,它在線上提供每秒輸出Token數在100左右的推理服務,且這個速度還在繼續(xù)提升,這讓它從價格和速度綜合性能上來看,成為最具性價比的模型之一。
在發(fā)布后,MiniMax也宣布延長免費測試時間,11月6日前用戶可以免費使用它。MiniMax在官方文章里寫道:“我們目前在免費提供MiniMax Agent,直到我們的服務器撐不住為止。”
這一策略也得到顯著效果,限時免費期間開發(fā)者的調用量正在快速增長,它已經成為現在OpenRouter上調用量第十的模型。
![]()
能達到這樣的成本控制,一部分是因為模型技術上的更新,但同時也來自于工程能力。在此次模型發(fā)布同時,MiniMax也宣布,其 Agent應用同步更新,它的安卓/IOS版本同時發(fā)布。
這個策略和OpenAI發(fā)布Sora2時類似,今天的模型從第一天就要以產品的樣子展示,因為模型和工程等能力已經分不開,而當你使用這個以Agent能力吸引用戶體驗的產品時,能更直接體驗到模型的能力進步,這些技術上的變化,不只是論文和技術報告里的表述,而直接成為用戶可以在使用的時候感受到的產品能力。這也為其他模型能力的最終融合提供了一個統(tǒng)一出口。
1
實測:絲滑!
為了了解 MiniMax M2 的實際表現,我們做了幾組測試:寫文章的速度、寫代碼的能力,以及能否像程序員一樣完成整個開發(fā)閉環(huán)。
測試 A:速度
第一項測試,我們讓 M2 和 Claude 4.1 用同樣的題目《AI智能體的未來》寫一篇約 800 字的中文文章。要求不復雜,只看速度。
M2 幾乎是秒出,Claude 還在一段段生成的時候,它已經寫完了四段。這不是那種糊弄,內容結構和語言也都正常。從體驗上,M2 給人一種很少見的“響應即結果”的感覺。
測試 B:編程能力
第二項測試更像真正的工程挑戰(zhàn)。我們用了經典的 Gilded Rose Refactoring Kata,這是程序員常拿來練手的老項目。
簡單來說,它包含一個基本的物品管理系統(tǒng),系統(tǒng)會按照規(guī)則更新商品的質量。為完成任務,它原本的代碼需要改進,模型的任務就是確保不影響原有功能的情況下,逐步優(yōu)化代碼結構,完成特定目標:在原代碼基礎上加一種新商品“Conjured”,讓它的品質下降速度是普通商品的兩倍,到期后再翻倍。
當模型加載項目后,它自動判斷語言版本,選擇 Python 實現作為操作對象。M2 首先解析出原始代碼中的五種商品類型及其邏輯關系——普通商品、Aged Brie、Sulfuras、Backstage Passes、以及在測試中出現但尚未實現的 Conjured。它明確識別出原始代碼的主要問題:條件分支復雜、邏輯重復、不利于擴展。
M2 隨后提出方案:采用策略模式重構。它為每個商品類型建立獨立類,使更新邏輯彼此隔離;同時新增 Conjured 類,定義“每天品質下降兩倍、到期后再翻倍下降”的規(guī)則。在此過程中,它同步修改測試腳本和示例文件,確保數據初始化、實例化方式及邊界條件與新架構一致。
第一次測試時,部分斷言未通過。M2 自動讀取錯誤日志,并分析根因。幾輪之后,所有測試全綠。
從交互過程看,M2 并非簡單地“生成代碼”,而是在執(zhí)行一個標準工程師的任務循環(huán):閱讀 → 分析 → 重構 → 實現 → 調試 → 驗證。它理解上下文、能跨文件修改、能根據測試反饋定位問題并自我修復。它在一個中等復雜度的項目中展示出清晰的架構意識、錯誤修復能力和穩(wěn)定的執(zhí)行表現,完成了傳統(tǒng)意義上由一名軟件工程師完成的工作流程。
測試 C:端到端開發(fā)
另外我們用最簡單的方式看它能不能獨立完成一次完整開發(fā)。只給它兩個文件:一個空的 calc.py,一個測試文件 test_calc.py,要求實現加法和除法,還要能處理除以零的錯誤。
它先讀測試,再寫代碼。第一次運行 pytest 報錯,它馬上分析錯誤原因——方法沒定義、異常沒處理。修完后再跑,立刻通過。整個過程不到一分鐘,從空白文件到測試全綠。![]()
測試 D:交互網頁
另外為了更加直觀一些,我們也用了比較經典的網頁交互任務來測試。
在這輪測試中,我們采用了“受控指令”的方式來評估大模型的 three.js 編程能力。我們的 prompt 明確規(guī)定了每一項功能,避免讓模型自由發(fā)揮或憑經驗補全,從而能更清晰地觀察它在嚴格約束下的執(zhí)行準確度。
指令中要求模型實現的功能包括:創(chuàng)建一個太陽與三顆行星的三維場景;行星顏色各異,并具備自轉與公轉動畫;軌道輔助線可見;使用 requestAnimationframe 實現循環(huán)渲染;同時在頁面中加入可調控制面板,支持調整動畫速度(timeScale)、顯示或隱藏軌道(showOrbits)、修改三顆行星的公轉半徑(radiusA/B/C),以及統(tǒng)一控制行星大小(sizeScale)。
評測時,我們對照這些具體要求,一項項核查生成網頁是否確實實現了對應功能。
結果顯示,m2在第一次編程時候,完成了“統(tǒng)一控制行星大小”之外的所有功能,而“統(tǒng)一控制行星大小”也在新增一次對話后修改成功。
從運行日志來看,模型的工作過程呈現出清晰的“生成—驗證—修復”三步節(jié)奏。它先按指令搭建完整的 three.js 場景,包括太陽、三顆行星及軌道動畫,并逐步驗證運行效果;在發(fā)現行星縮放后消失的問題時,沒有重新生成全部代碼,而是像開發(fā)者一樣逐層排查原因,最終判斷是幾何體替換破壞了渲染引用,并改用 planet.scale.setScalar() 進行安全縮放。整個過程展現出較強的邏輯性與工程意識,說明模型不僅能生成代碼,還具備一定的調試與優(yōu)化能力。
1
MiniMax自己的一張藍圖
今天Agent已成為一個最明確的技術演進和落地路線,但同時也帶來一些爭論——究竟是“模型即agent”,還是應用本身大量工作其實無法被模型一口吃掉,這些話題幾乎每天都被討論。
MiniMax M2的出現給這些討論提供了一個新的啟發(fā):
在各模態(tài)模型上都達到SOTA的模型公司,可能才是最能把Agent能力更好提供給所有人的公司。
目前MiniMax 的語音模型和視頻模型都是全球SOTA的水平:在Artificial Analysis的Text to Speech Arena Quality ELO上,MiniMax的語音模型Speech-02-HD今天依然是領先OpenAI和ElevenLabs等公司模型的存在。視頻模型Hailuo 02接下來也會迎來更新,它在發(fā)布多個月后依然在多個評測榜單上位列前五的位置。
而這些模型的優(yōu)異表現都不是單純的“雕花”創(chuàng)新帶來的,MiniMax 的Speech模型有自己全新的Flow-VAE架構,Hailuo 02此前升級使用了NCR的架構,靠此推動整個模型對復雜指令和場景的理解能力提升。
MiniMax這家公司有一種和許多公司不同的技術追求,它寧愿多花一些時間,慢一點,甚至顯得“拙”一些,也要為整個技術的底層進步添些磚加些瓦,進而解決技術落地過程里的真問題。
今天M2背后的“文本模型”領域,MiniMax也走過了相似的路。從年初發(fā)布和開源的MiniMax 01系列開始,到后來的M1、今天的M2,模型從線性注意力機制,到新的強化學習技巧CISPO,再到更徹底地為Agent能力做特定優(yōu)化,最終MiniMax交出了它自己心目中這個階段最能解決實際問題的Agent,它是模型,也是應用,是MiniMax“讓每個人都擁有充裕的智能”過程里重要一步。
所以,不必區(qū)分誰是Agent公司誰是模型公司,真正重要的就是體驗。而這種體驗最根本的區(qū)別,來自于對模型全方位能力的真正自主的把握。在各個重要模態(tài)上,堅持用自己的一套方法來訓練模型,并逐漸獲得現實收益,這可能是MiniMax今天和其他公司最大的不同。
今天的MiniMax繼續(xù)在按照它自己的路線,交出一個個拼圖。而這是一個系統(tǒng)工程,這些不同模型的節(jié)奏,技術突破的節(jié)奏和把這些模型能力變?yōu)閼玫牡讓幽芰Γ际沁@張藍圖的一部分。而接下來,我們也許可以期待一把,擁有了各個模態(tài)的不同強大模型的MiniMax,會如何把它們融合起來。這可能也會是下一個突破的來源。
![]()
目前,MiniMax M2 可以通過 MiniMax Agent APP,API和各大模型平臺上使用,且MiniMax宣布Agent和模型全球限時免費14天,各位可以體驗起來了。
![]()
點個“愛心”,再走 吧





京公網安備 11011402013531號