MiniMax M2：所有坑都踩過，才能做出所有人都能用上的Agent

IP屬地中國·北京 硅星人 時間：2025-10-28 10:12:00

作者｜王兆洋
郵箱｜ wangzhaoyang@pingwest.com
1
8%！
最近一個月，基礎模型似乎又有點多起來。但若仔細去看這些模型廠商的動作，大體還是走出了兩條路。
一種是在諸多難點里選擇一個死磕，成為這個單點上的SOTA。這種路線可以快速在開發(fā)者群體留下一個明確的印象，但也可能限制住了一家模型公司的“基座”屬性。另一種則是在各個模態(tài)上全面前進，在一個最全面的基礎模型藍圖里不停交出一個個關鍵拼圖。
已經有了全球最強語音模型和視頻模型的MiniMax就是第二種。而它最新的拼圖，是MiniMax M2。
10月28日，MiniMax正式發(fā)布了MiniMax M2。根據官方的信息，MiniMax-M2是一款專門為coding和agent打造，但同時保持了輕量級和靈敏度的模型。除了基于通用能力上的專門優(yōu)化，它目前的上下文窗口保持了目前此類模型的通用水準，最大輸入token和輸出token總和為200k，最大輸出(max_tokens)為128k。它也提供了開發(fā)者期待的端到端工具使用性能。

官方定義它是“極具成本效益的模型，提供全球最高性價比和極致速度”。值得注意的是，它的模型為2300億總參數，而激活參數控制在了100億。
在全球評測模型最受認可的，覆蓋了數學、科學與編碼等多個核心領域能力的榜單之一，Artificial Analysis榜單上，M2總分目前位列全球前五。也就是，它是一個在MiniMax過往模型強大的基礎能力基礎上，優(yōu)化了coding和agent能力后，依然可以在綜合能力上不犧牲太多的模型。
而更關鍵的是這一切達成的同時，它的價格再次大幅下降。根據MiniMax的介紹，它在一些任務上的成本只有Claud的8%。
目前MiniMax模型的API價格定在每百萬Token輸入0.3美金/2.1元人民幣，輸出1.2美金/8.4元，同時，它在線上提供每秒輸出Token數在100左右的推理服務，且這個速度還在繼續(xù)提升，這讓它從價格和速度綜合性能上來看，成為最具性價比的模型之一。
在發(fā)布后，MiniMax也宣布延長免費測試時間，11月6日前用戶可以免費使用它。MiniMax在官方文章里寫道：“我們目前在免費提供MiniMax Agent，直到我們的服務器撐不住為止。”
這一策略也得到顯著效果，限時免費期間開發(fā)者的調用量正在快速增長，它已經成為現在OpenRouter上調用量第十的模型。

能達到這樣的成本控制，一部分是因為模型技術上的更新，但同時也來自于工程能力。在此次模型發(fā)布同時，MiniMax也宣布，其 Agent應用同步更新，它的安卓/IOS版本同時發(fā)布。
這個策略和OpenAI發(fā)布Sora2時類似，今天的模型從第一天就要以產品的樣子展示，因為模型和工程等能力已經分不開，而當你使用這個以Agent能力吸引用戶體驗的產品時，能更直接體驗到模型的能力進步，這些技術上的變化，不只是論文和技術報告里的表述，而直接成為用戶可以在使用的時候感受到的產品能力。這也為其他模型能力的最終融合提供了一個統(tǒng)一出口。
1
實測：絲滑！
為了了解 MiniMax M2 的實際表現，我們做了幾組測試：寫文章的速度、寫代碼的能力，以及能否像程序員一樣完成整個開發(fā)閉環(huán)。
測試 A：速度
第一項測試，我們讓 M2 和 Claude 4.1 用同樣的題目《AI智能體的未來》寫一篇約 800 字的中文文章。要求不復雜，只看速度。
M2 幾乎是秒出，Claude 還在一段段生成的時候，它已經寫完了四段。這不是那種糊弄，內容結構和語言也都正常。從體驗上，M2 給人一種很少見的“響應即結果”的感覺。
測試 B：編程能力
第二項測試更像真正的工程挑戰(zhàn)。我們用了經典的 Gilded Rose Refactoring Kata，這是程序員常拿來練手的老項目。
簡單來說，它包含一個基本的物品管理系統(tǒng)，系統(tǒng)會按照規(guī)則更新商品的質量。為完成任務，它原本的代碼需要改進，模型的任務就是確保不影響原有功能的情況下，逐步優(yōu)化代碼結構，完成特定目標：在原代碼基礎上加一種新商品“Conjured”，讓它的品質下降速度是普通商品的兩倍，到期后再翻倍。
當模型加載項目后，它自動判斷語言版本，選擇 Python 實現作為操作對象。M2 首先解析出原始代碼中的五種商品類型及其邏輯關系——普通商品、Aged Brie、Sulfuras、Backstage Passes、以及在測試中出現但尚未實現的 Conjured。它明確識別出原始代碼的主要問題：條件分支復雜、邏輯重復、不利于擴展。
M2 隨后提出方案：采用策略模式重構。它為每個商品類型建立獨立類，使更新邏輯彼此隔離；同時新增 Conjured 類，定義“每天品質下降兩倍、到期后再翻倍下降”的規(guī)則。在此過程中，它同步修改測試腳本和示例文件，確保數據初始化、實例化方式及邊界條件與新架構一致。
第一次測試時，部分斷言未通過。M2 自動讀取錯誤日志，并分析根因。幾輪之后，所有測試全綠。
從交互過程看，M2 并非簡單地“生成代碼”，而是在執(zhí)行一個標準工程師的任務循環(huán)：閱讀 → 分析 → 重構 → 實現 → 調試 → 驗證。它理解上下文、能跨文件修改、能根據測試反饋定位問題并自我修復。它在一個中等復雜度的項目中展示出清晰的架構意識、錯誤修復能力和穩(wěn)定的執(zhí)行表現，完成了傳統(tǒng)意義上由一名軟件工程師完成的工作流程。
測試 C：端到端開發(fā)
另外我們用最簡單的方式看它能不能獨立完成一次完整開發(fā)。只給它兩個文件：一個空的 calc.py，一個測試文件 test_calc.py，要求實現加法和除法，還要能處理除以零的錯誤。
它先讀測試，再寫代碼。第一次運行 pytest 報錯，它馬上分析錯誤原因——方法沒定義、異常沒處理。修完后再跑，立刻通過。整個過程不到一分鐘，從空白文件到測試全綠。
測試 D：交互網頁
另外為了更加直觀一些，我們也用了比較經典的網頁交互任務來測試。
在這輪測試中，我們采用了“受控指令”的方式來評估大模型的 three.js 編程能力。我們的 prompt 明確規(guī)定了每一項功能，避免讓模型自由發(fā)揮或憑經驗補全，從而能更清晰地觀察它在嚴格約束下的執(zhí)行準確度。
指令中要求模型實現的功能包括：創(chuàng)建一個太陽與三顆行星的三維場景；行星顏色各異，并具備自轉與公轉動畫；軌道輔助線可見；使用 requestAnimationframe 實現循環(huán)渲染；同時在頁面中加入可調控制面板，支持調整動畫速度（timeScale）、顯示或隱藏軌道（showOrbits）、修改三顆行星的公轉半徑（radiusA/B/C），以及統(tǒng)一控制行星大小（sizeScale）。
評測時，我們對照這些具體要求，一項項核查生成網頁是否確實實現了對應功能。
結果顯示，m2在第一次編程時候，完成了“統(tǒng)一控制行星大小”之外的所有功能，而“統(tǒng)一控制行星大小”也在新增一次對話后修改成功。
從運行日志來看，模型的工作過程呈現出清晰的“生成—驗證—修復”三步節(jié)奏。它先按指令搭建完整的 three.js 場景，包括太陽、三顆行星及軌道動畫，并逐步驗證運行效果；在發(fā)現行星縮放后消失的問題時，沒有重新生成全部代碼，而是像開發(fā)者一樣逐層排查原因，最終判斷是幾何體替換破壞了渲染引用，并改用 planet.scale.setScalar() 進行安全縮放。整個過程展現出較強的邏輯性與工程意識，說明模型不僅能生成代碼，還具備一定的調試與優(yōu)化能力。
1
MiniMax自己的一張藍圖
今天Agent已成為一個最明確的技術演進和落地路線，但同時也帶來一些爭論——究竟是“模型即agent”，還是應用本身大量工作其實無法被模型一口吃掉，這些話題幾乎每天都被討論。
MiniMax M2的出現給這些討論提供了一個新的啟發(fā)：
在各模態(tài)模型上都達到SOTA的模型公司，可能才是最能把Agent能力更好提供給所有人的公司。
目前MiniMax 的語音模型和視頻模型都是全球SOTA的水平：在Artificial Analysis的Text to Speech Arena Quality ELO上，MiniMax的語音模型Speech-02-HD今天依然是領先OpenAI和ElevenLabs等公司模型的存在。視頻模型Hailuo 02接下來也會迎來更新，它在發(fā)布多個月后依然在多個評測榜單上位列前五的位置。
而這些模型的優(yōu)異表現都不是單純的“雕花”創(chuàng)新帶來的，MiniMax 的Speech模型有自己全新的Flow-VAE架構，Hailuo 02此前升級使用了NCR的架構，靠此推動整個模型對復雜指令和場景的理解能力提升。
MiniMax這家公司有一種和許多公司不同的技術追求，它寧愿多花一些時間，慢一點，甚至顯得“拙”一些，也要為整個技術的底層進步添些磚加些瓦，進而解決技術落地過程里的真問題。
今天M2背后的“文本模型”領域，MiniMax也走過了相似的路。從年初發(fā)布和開源的MiniMax 01系列開始，到后來的M1、今天的M2，模型從線性注意力機制，到新的強化學習技巧CISPO，再到更徹底地為Agent能力做特定優(yōu)化，最終MiniMax交出了它自己心目中這個階段最能解決實際問題的Agent，它是模型，也是應用，是MiniMax“讓每個人都擁有充裕的智能”過程里重要一步。
所以，不必區(qū)分誰是Agent公司誰是模型公司，真正重要的就是體驗。而這種體驗最根本的區(qū)別，來自于對模型全方位能力的真正自主的把握。在各個重要模態(tài)上，堅持用自己的一套方法來訓練模型，并逐漸獲得現實收益，這可能是MiniMax今天和其他公司最大的不同。
今天的MiniMax繼續(xù)在按照它自己的路線，交出一個個拼圖。而這是一個系統(tǒng)工程，這些不同模型的節(jié)奏，技術突破的節(jié)奏和把這些模型能力變?yōu)閼玫牡讓幽芰Γ际沁@張藍圖的一部分。而接下來，我們也許可以期待一把，擁有了各個模態(tài)的不同強大模型的MiniMax，會如何把它們融合起來。這可能也會是下一個突破的來源。

目前，MiniMax M2 可以通過 MiniMax Agent APP，API和各大模型平臺上使用，且MiniMax宣布Agent和模型全球限時免費14天，各位可以體驗起來了。

點個“愛心”，再走吧

免責聲明：本網信息來自于互聯(lián)網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯(lián)系我們，本站將會在24小時內處理完畢。

同類資訊

谷歌強勢逆襲，OpenAI崩盤在即？全面梳理2025年AI最大變局

ChatGPT現在可以讓用戶選擇聊天時的暖心程度

macOS版ChatGPT應用官宣2026年1月停用AI語音模式

孫正義投資OpenAI遭遇資金壓力：欲套現滴滴持股、抵押ARM股票

車主早上買保險晚上出事保險公司以次日生效為由拒賠

用戶曬截圖稱羅永浩嘲諷網友用紅米K80：內容已被刪除

全站最新

谷歌強勢逆襲，OpenAI崩盤在即？全面梳理2025年AI最大變局

ChatGPT現在可以讓用戶選擇聊天時的暖心程度

macOS版ChatGPT應用官宣2026年1月停用AI語音模式

孫正義投資OpenAI遭遇資金壓力：欲套現滴滴持股、抵押ARM股票

熱門推薦

谷歌強勢逆襲，OpenAI崩盤在即？全面梳理2025年AI最大變局

ChatGPT現在可以讓用戶選擇聊天時的暖心程度

macOS版ChatGPT應用官宣2026年1月停用AI語音模式

孫正義投資OpenAI遭遇資金壓力：欲套現滴滴持股、抵押ARM股票

車主早上買保險晚上出事保險公司以次日生效為由拒賠

用戶曬截圖稱羅永浩嘲諷網友用紅米K80：內容已被刪除

中國人形機器人“跳”進演唱會，馬斯克點贊稱“印象深刻”

羅永浩吐槽電信寬帶縮水！華為李小龍：可能是接觸不良

英偉達50億美元投資英特爾獲批，將共同開發(fā)“革命性”芯片

Scaling Law沒死！Gemini核心大佬爆料，谷歌已有顛覆性密鑰

諾獎得主Hassabis：5-10年AGI將至，沖擊力將是工業(yè)革命10倍！

軟銀尋求在滴滴香港IPO中出售所持股份

40億產品月活、500億美元利潤、5000億美元估值，字節(jié)已進入全球互聯(lián)網第一梯隊

谷歌大舉回聘離職員工補強AI團隊

北京人形XR-1模型開源