![]()
機(jī)器之心報(bào)道
編輯:杜偉、+0
昨日,有位推特博主曬出了國內(nèi)幾大開源模型在輕量級軟件工程 Agent 基準(zhǔn)測試 mini-SWE-agent 上的成績。該基準(zhǔn)主要測試大模型在真實(shí)軟件開發(fā)任務(wù)中的多步推理、環(huán)境交互和工程化能力。
結(jié)果顯示,MiniMax 新一代大模型 M2 的表現(xiàn)最佳,一舉超越了 DeepSeek、GLM、Qwen、Kimi 等其他一眾競品廠商。
![]()
更多測試細(xì)節(jié)請查看:https://x.com/KLieret/status/1995949673551724717
作為一個(gè)發(fā)布之初以 Agent 和代碼能力見長的大模型,MiniMax M2 在 mini-SWE-agent 測試中的亮眼表現(xiàn)并不令人意外。它不僅可以出色規(guī)劃、穩(wěn)定執(zhí)行復(fù)雜長鏈條工具調(diào)用任務(wù),還能協(xié)同調(diào)用 Shell、Browser、Python 代碼執(zhí)行器和其他各種 MCP 工具。
支撐這些能力的關(guān)鍵技術(shù)正是 MiniMax M2 所采用的「Interleaved Thinking」(交錯(cuò)思維), 通俗地講即是一邊思考、一邊調(diào)用工具。這一技術(shù)的加持,使得該模型能夠在「思考 - 行動 - 反思」的閉環(huán)中持續(xù)積累上下文理解,并根據(jù)反饋實(shí)時(shí)調(diào)整策略。
這種更接近真實(shí)工程師的工作方式,顯著提升了 MiniMax M2 的 Agent 執(zhí)行能力,在復(fù)雜任務(wù)中規(guī)劃性更強(qiáng)、執(zhí)行穩(wěn)健性更高、自我糾錯(cuò)能力更可靠,從而組成了其最具辨識度的核心優(yōu)勢。
發(fā)布僅僅一個(gè)多月,MiniMax M2 在實(shí)際 Agent 使用場景中獲得了開發(fā)者的廣泛認(rèn)可。此前,推特博主 @elvis 表示,「MiniMax-M2 比我想象的要重要得多!我用 M2 構(gòu)建了一個(gè)深度研究 Agent,交錯(cuò)思維確實(shí)不一般,它能在工具調(diào)用之間保留完整的內(nèi)容塊(思考 + 文本 + 工具調(diào)用),實(shí)現(xiàn)持續(xù)推理。這對自我改進(jìn)的 Agent 非常有幫助。」

圖源:https://x.com/omarsar0/status/1993325632961593417
就在以 Agentic AI 為核心主題的 AWS re:Invent 2025 大會上,AWS CEO Matt Garman 宣布旗下模型庫 Amazon Bedrock 迎來多個(gè)「新成員」,其中就包括了國產(chǎn)開源模型代表 MiniMax M2。
![]()
不禁好奇,Interleaved Thinking 在背后是如何驅(qū)動大模型變得「更能干活」的?帶著這些疑問,我們對這項(xiàng)技術(shù)進(jìn)行了一番深入探究。
崛起的「Interleaved Thinking」,正成為 Agent 模型標(biāo)配
傳統(tǒng)的 Chain-of-Thought(CoT)往往是「線性」的:模型先進(jìn)行一次完整的思考規(guī)劃,然后批量調(diào)用工具,最后根據(jù)結(jié)果生成答案。這種模式在簡單的問答中有效,但在面對現(xiàn)實(shí)復(fù)雜任務(wù)時(shí)往往會「顧頭不顧尾」,尤其是在多輪次推理、跨步驟決策和實(shí)時(shí)動態(tài)調(diào)整方面顯得力不從心。
隨著 Agent 任務(wù)的復(fù)雜程度越來越高,這類模式的局限更加明顯,因此催生出了全新推理范式的需求。這也正是 Interleaved Thinking 得以迅速崛起的原因所在。
Interleaved Thinking 這一路徑的核心思想可以追溯到 2022 年由普林斯頓大學(xué)與谷歌提出的 ReAct 框架,該框架系統(tǒng)性地提出將推理與行動(工具調(diào)用)交錯(cuò)進(jìn)行。此后,Anthropic 提出的 Extended Thinking 在強(qiáng)調(diào)長時(shí)與長鏈路推理的同時(shí)進(jìn)一步完善了與工具調(diào)用等 Agent 場景的協(xié)同。
基于這些工作,MiniMax M2 采用的 Interleaved Thinking 通過將推理貫穿于工具調(diào)用的每個(gè)步驟,在 Agent 執(zhí)行過程中形成了高效穩(wěn)定的「同步思考、實(shí)時(shí)調(diào)整、持續(xù)修正」循環(huán)
具體來講,Interleaved thinking 是在顯性推理和工具使用之間交替進(jìn)行,同時(shí)在各步驟之間將推理推進(jìn)。它本質(zhì)上是一個(gè)「思考 → 行動 → 觀察 → 再思考」的動態(tài)循環(huán)。這一過程顯著提升了規(guī)劃、自我糾正和長期工作流程的可靠性。
早期的 ReAct 很大程度上是借助 prompt 工程在外部框架里「硬湊」出的邏輯閉環(huán),鏈路常因格式或解析問題而中斷;而如今的 Interleaved Thinking(如 MiniMax M2、DeepSeek V3.2)則把這類思考 - 行動模式更深度地融入了模型及其推理流程,讓它更接近一種「原生的思維直覺」,因而更加穩(wěn)健。
![]()
圖源:https://t.co/u5DOdvTMtx
為什么它如此重要?
在長鏈路任務(wù)中,Agent 面臨一個(gè)「致命殺手」:狀態(tài)漂移。在復(fù)雜的 Agent 任務(wù)(如編寫一個(gè)完整的游戲模組或進(jìn)行深度行業(yè)調(diào)研)中,交互往往長達(dá)數(shù)十輪。如果模型在每一輪交互中丟棄了上一輪的推理過程,只保留工具的輸出結(jié)果,模型就會陷入「失憶」?fàn)顟B(tài)。
它會忘記「我為什么要運(yùn)行這行代碼」或者「剛才那個(gè)報(bào)錯(cuò)排查到哪一步了」。這種上下文的斷裂會導(dǎo)致模型重復(fù)執(zhí)行無效操作,或者在多輪交互后偏離最初的目標(biāo)。
而 Interleaved Thinking 從根源了解決了「狀態(tài)漂移」問題,使得計(jì)劃、意圖和中間結(jié)論可以跨輪次延續(xù)。
![]()
圖源:https://t.co/u5DOdvTMtx
看到這里,可能有讀者會問:這不就是讓模型「記性好」一點(diǎn)嗎?它和現(xiàn)在熱門的 Memory、Long Context 和 RAG 有什么區(qū)別?
其實(shí),它們解決的是不同維度的「遺忘」問題。
普通的大模型記憶像電腦的硬盤。它側(cè)重于「存事實(shí)」,記住的是用戶的偏好、過往的知識庫或幾天前的對話摘要。 確保模型下次見到你,還記得你是誰,之前的項(xiàng)目背景是什么。
Interleaved Thinking 則像電腦的 RAM (內(nèi)存)。它側(cè)重于「存邏輯」,記住的是「我剛才為什么決定這么做」、「我對當(dāng)前步驟的懷疑」、「我下一步的臨時(shí)假設(shè)」,它用來維持正在運(yùn)行的思維鏈狀態(tài)。
當(dāng)然,在實(shí)際工程中,這兩者并非二元對立,而是互為表里。 我們往往需要 Long Context 作為巨大的容器,來承載 Interleaved Thinking 產(chǎn)生的大量推理過程。但如果不具備 Interleaved 的「思維動態(tài)維持」能力,單純拉長 Context 只不過是給模型塞了一堆僵死的文字,模型依然會在海量信息中迷失方向。
簡而言之,大模型記憶決定了 Agent 能「懂」多少過去,而 Interleaved Thinking 決定了 Agent 能「走」多遠(yuǎn)未來。
目前,Interleaved Thinking 這一技術(shù)正加速成為「行業(yè)共識」。除了 MiniMax 之外,很多其他頭部大模型廠商也開始采納:
Kimi K2 thinking原生支持 Thinking-in-Tools 能力,掌握了「邊思考、邊操作」的動態(tài)推理節(jié)奏;Gemini 3 Pro確立了「內(nèi)部 Thinking 模式 + 思路簽名(Thought Signature)」的標(biāo)準(zhǔn),支持多輪 Context 回傳與 Tool-use/Agent 的深度協(xié)同,確保持續(xù)推理不掉線;DeepSeek V3.2推出了首個(gè)將思考深度融入工具使用的 Thinking in Tool-Use 機(jī)制,在工具調(diào)用期間保留推理上下文,實(shí)現(xiàn)了思考與執(zhí)行的無縫銜接。
可以說,Interleaved Thinking 已不再是單一廠商的特色,而逐步成為高性能 Agent 模型的「標(biāo)配」
作為最早官方支持該技術(shù)的開源模型,MiniMax M2 在提升 Interleaved Thinking 的性能與效率上已經(jīng)形成了自己獨(dú)到的一套打法。
既強(qiáng)又省,MiniMax M2 用交錯(cuò)思維定義 Agent 新范式
Interleaved Thinking 的核心價(jià)值在于高強(qiáng)度的「工作記憶」維持能力。正是這種在每一步工具交互中保留并傳遞推理內(nèi)容的機(jī)制,確保了 MiniMax M2 在執(zhí)行長鏈路任務(wù)時(shí),能夠?qū)崿F(xiàn)高效的自我修正、動態(tài)規(guī)劃與樣本復(fù)用,有效避免了邏輯中斷。
根據(jù) MiniMax M2 的實(shí)測數(shù)據(jù),保持前輪思維狀態(tài)帶來了顯著的性能提升:在充滿不確定性、極度依賴「觀察 - 調(diào)整」循環(huán)的 BrowseComp(網(wǎng)頁瀏覽任務(wù))中,保持前輪思維狀態(tài)讓性能從 31.4 躍升至 44.0,漲幅高達(dá) 40.1%;在 Tau2 復(fù)雜工具調(diào)用測試中,性能提升了 35.9%;即使是在本就極高難度的 SWE-Bench Verified 軟件工程基準(zhǔn)上,也依然取得了 3.3% 的顯著增長。
![]()
不僅強(qiáng),而且極其「省」
為了驗(yàn)證這一機(jī)制在真實(shí)開發(fā)流中的威力,AI Agent 系統(tǒng)經(jīng)理 Muratcan Koylan 構(gòu)建了一個(gè)具體的演示:為設(shè)計(jì)系統(tǒng)團(tuán)隊(duì)自動生成一份簡報(bào)。這項(xiàng)任務(wù)需要模型整理關(guān)鍵 Design Tokens(如顏色、排版、間距)、定義按鈕組件的實(shí)現(xiàn)規(guī)范,以及輸出可復(fù)用的開發(fā)模式。
![]()
圖源:https://x.com/koylanai/status/1990692277723734153
在這個(gè)演示中,傳統(tǒng)模型試圖「一口吃成胖子」,一次性調(diào)用所有工具,容易導(dǎo)致結(jié)果偏差。而 M2 展現(xiàn)了清晰的節(jié)奏:先獲取顏色 → 反思 → 再請求排版 → 再請求間距。這種「思考 → 行動 → 消化結(jié)果」的循環(huán),讓每一步?jīng)Q策都通過 reasoning_details 清晰可見,不再是黑盒。
![]()
對于開發(fā)者而言,技術(shù)先進(jìn)性最終要通過成本和效率來落地。Muratcan 的測試數(shù)據(jù)還展示了 M2 驚人的經(jīng)濟(jì)性:在這個(gè)包含 8 步推理、7 次工具調(diào)用 的完整流程中,MiniMax M2 的總成本僅為 $0.001669。相比同級別的 Claude Sonnet(約 $0.020),M2 便宜了近 12 倍
這意味著,在相同的預(yù)算下,開發(fā)者可以使用 M2 進(jìn)行 12 倍的迭代實(shí)驗(yàn)。Muratcan 指出,這種「高可見性 + 低成本」的組合,讓快速迭代真正變得可行,這對于構(gòu)建復(fù)雜的工具編排和開發(fā)工作流來說,是游戲規(guī)則的改變者。
如何榨干 M2 的全部性能?
盡管 MiniMax M2 能力強(qiáng)大,但在發(fā)布初期,官方社區(qū)反饋發(fā)現(xiàn)了一個(gè)普遍現(xiàn)象:很多開發(fā)者并沒有正確「打開」 Interleaved Thinking。
常見誤區(qū)包括:調(diào)用 API 時(shí)丟棄上一輪推理內(nèi)容、或在使用 Anthropic 格式時(shí)過濾掉了 thinking blocks。一旦上下文斷裂,模型只能從零推理,性能直接腰斬。
為了確保開發(fā)者能榨干 M2 的全部性能,MiniMax 提供了兩種主流 API 格式的最佳實(shí)踐:
MiniMax 官方 API: 采用內(nèi)容與推理分離的設(shè)計(jì),推理過程通過獨(dú)立的 reasoning_details 字段返回,清晰且易于解析。Anthropic 兼容 API: 完美適配 Claude 生態(tài),天然支持多類型內(nèi)容塊,只需保留并回傳 thinking blocks 即可。
這些實(shí)踐表明了,MiniMax M2 正在為困擾業(yè)界已久的 Agent 落地難題,打開了一種全新的解決思路。
在被稱為 Agent 落地元年的 2025 年,直到現(xiàn)在仍有很多 AI 界人士持有悲觀態(tài)度,比如 Andrej Karpathy,他在上上個(gè)月的一次訪談節(jié)目中表示,當(dāng)前市面上的 AI Agent「令人失望」,并預(yù)計(jì)大約還需要 10 年時(shí)間,它們才可能發(fā)展到真正可用、可靠的狀態(tài)。
這里首要解決的一大挑戰(zhàn)便是:模型思考過程與工具執(zhí)行之間真正實(shí)現(xiàn)絲滑、高效的協(xié)作。如今隨著 Interleaved Thinking 的機(jī)制不斷完善,其能力逐步得到充分釋放,這一問題也隨之有了可行性更高的技術(shù)解決方案。
當(dāng)然,Interleaved Thinking 想要贏得更多廠商和開發(fā)者的青睞,少不了其他各環(huán)節(jié)的系統(tǒng)性支持。MiniMax M2 發(fā)布時(shí),社區(qū)對該技術(shù)的支持非常有限。為了改變這一現(xiàn)狀,MiniMax 采取多種途徑推動該技術(shù)成為可復(fù)用的行業(yè)標(biāo)準(zhǔn)。
過去幾周,MiniMax 與 Kilo Code、RooCode、Cline、OpenRouter、Ollama 等眾多合作伙伴合作,提供了多個(gè)關(guān)鍵 PR,實(shí)現(xiàn)了這些編程工具、API 平臺對 Interleaved Thinking + 原生工具調(diào)用的廣泛、良好支持。同時(shí),基于內(nèi)部的 Benchmark,MiniMax 與合作伙伴一起對這些實(shí)現(xiàn)進(jìn)行了測試,確保對應(yīng)實(shí)現(xiàn)的正確性和效果。
以 Kilo Code 平臺為例,其已經(jīng)支持最新版本的 MiniMax M2,并默認(rèn)啟用了 Interleaved Thinking 與原生工具調(diào)用的功能。用戶對此高度評價(jià),「MiniMax M2 + 工具能力 + 免費(fèi)開放 = 絕對的贏家組合」。
![]()
![]()
圖源:https://x.com/kilocode/status/1990419655991652649?s=20
此外,為了讓開發(fā)者更快掌握 Interleaved Thinking 與 Agent 的最佳實(shí)踐,MiniMax開源了支持該技術(shù)的 Coding CLI——Mini-Agent。通過可直接運(yùn)行的工程示例,用戶可以直觀地看到 MiniMax M2 通過 Interleaved Thinking 構(gòu)建 Agent 的效果。下圖展示了 Agent 使用其網(wǎng)頁搜索工具在線獲取最新信息,并為用戶進(jìn)行總結(jié)。

目前,該項(xiàng)目已獲得了 700 + 的 Star,在社區(qū)中的關(guān)注度持續(xù)提高。
![]()
GitHub 地址:https://github.com/MiniMax-AI/Mini-Agent
社區(qū)和生態(tài)建設(shè)層面的一系列舉措意味著,MiniMax 正為行業(yè)構(gòu)建一套更標(biāo)準(zhǔn)化、工程化的 Agent 執(zhí)行范式。這些舉措也將加速讓 Interleaved Thinking 從模型內(nèi)部的技術(shù)特性演變?yōu)殚_發(fā)者可直接調(diào)用與集成的能力。
隨著包括 MiniMax M2 在內(nèi)的大模型展現(xiàn)出了高效穩(wěn)定的 Agentic 能力,未來可能有更多廠商采用類似技術(shù),并將推動更多 API 平臺和編程工具完善相應(yīng)的支持與適配。
Agent 邁向真正生產(chǎn)級階段的轉(zhuǎn)折點(diǎn),或許已經(jīng)從 Interleaved Thinking 開始了。





京公網(wǎng)安備 11011402013531號