當(dāng)前位置：首頁 ? 資訊 ? 新科技 ? 正文

從MiniMax到DeepSeek：為何頭部大模型都在押注「交錯(cuò)思維」？

IP屬地中國·北京 機(jī)器之心Pro 時(shí)間：2025-12-04 16:22:10

機(jī)器之心報(bào)道
編輯：杜偉、+0
昨日，有位推特博主曬出了國內(nèi)幾大開源模型在輕量級軟件工程 Agent 基準(zhǔn)測試 mini-SWE-agent 上的成績。該基準(zhǔn)主要測試大模型在真實(shí)軟件開發(fā)任務(wù)中的多步推理、環(huán)境交互和工程化能力。
結(jié)果顯示，MiniMax 新一代大模型 M2 的表現(xiàn)最佳，一舉超越了 DeepSeek、GLM、Qwen、Kimi 等其他一眾競品廠商。

更多測試細(xì)節(jié)請查看：https://x.com/KLieret/status/1995949673551724717
作為一個(gè)發(fā)布之初以 Agent 和代碼能力見長的大模型，MiniMax M2 在 mini-SWE-agent 測試中的亮眼表現(xiàn)并不令人意外。它不僅可以出色規(guī)劃、穩(wěn)定執(zhí)行復(fù)雜長鏈條工具調(diào)用任務(wù)，還能協(xié)同調(diào)用 Shell、Browser、Python 代碼執(zhí)行器和其他各種 MCP 工具。
支撐這些能力的關(guān)鍵技術(shù)正是 MiniMax M2 所采用的「Interleaved Thinking」（交錯(cuò)思維），通俗地講即是一邊思考、一邊調(diào)用工具。這一技術(shù)的加持，使得該模型能夠在「思考 - 行動 - 反思」的閉環(huán)中持續(xù)積累上下文理解，并根據(jù)反饋實(shí)時(shí)調(diào)整策略。
這種更接近真實(shí)工程師的工作方式，顯著提升了 MiniMax M2 的 Agent 執(zhí)行能力，在復(fù)雜任務(wù)中規(guī)劃性更強(qiáng)、執(zhí)行穩(wěn)健性更高、自我糾錯(cuò)能力更可靠，從而組成了其最具辨識度的核心優(yōu)勢。
發(fā)布僅僅一個(gè)多月，MiniMax M2 在實(shí)際 Agent 使用場景中獲得了開發(fā)者的廣泛認(rèn)可。此前，推特博主 @elvis 表示，「MiniMax-M2 比我想象的要重要得多！我用 M2 構(gòu)建了一個(gè)深度研究 Agent，交錯(cuò)思維確實(shí)不一般，它能在工具調(diào)用之間保留完整的內(nèi)容塊（思考 + 文本 + 工具調(diào)用），實(shí)現(xiàn)持續(xù)推理。這對自我改進(jìn)的 Agent 非常有幫助。」

圖源：https://x.com/omarsar0/status/1993325632961593417
就在以 Agentic AI 為核心主題的 AWS re:Invent 2025 大會上，AWS CEO Matt Garman 宣布旗下模型庫 Amazon Bedrock 迎來多個(gè)「新成員」，其中就包括了國產(chǎn)開源模型代表 MiniMax M2。

不禁好奇，Interleaved Thinking 在背后是如何驅(qū)動大模型變得「更能干活」的？帶著這些疑問，我們對這項(xiàng)技術(shù)進(jìn)行了一番深入探究。
崛起的「Interleaved Thinking」，正成為 Agent 模型標(biāo)配
傳統(tǒng)的 Chain-of-Thought（CoT）往往是「線性」的：模型先進(jìn)行一次完整的思考規(guī)劃，然后批量調(diào)用工具，最后根據(jù)結(jié)果生成答案。這種模式在簡單的問答中有效，但在面對現(xiàn)實(shí)復(fù)雜任務(wù)時(shí)往往會「顧頭不顧尾」，尤其是在多輪次推理、跨步驟決策和實(shí)時(shí)動態(tài)調(diào)整方面顯得力不從心。
隨著 Agent 任務(wù)的復(fù)雜程度越來越高，這類模式的局限更加明顯，因此催生出了全新推理范式的需求。這也正是 Interleaved Thinking 得以迅速崛起的原因所在。
Interleaved Thinking 這一路徑的核心思想可以追溯到 2022 年由普林斯頓大學(xué)與谷歌提出的 ReAct 框架，該框架系統(tǒng)性地提出將推理與行動（工具調(diào)用）交錯(cuò)進(jìn)行。此后，Anthropic 提出的 Extended Thinking 在強(qiáng)調(diào)長時(shí)與長鏈路推理的同時(shí)進(jìn)一步完善了與工具調(diào)用等 Agent 場景的協(xié)同。
基于這些工作，MiniMax M2 采用的 Interleaved Thinking 通過將推理貫穿于工具調(diào)用的每個(gè)步驟，在 Agent 執(zhí)行過程中形成了高效穩(wěn)定的「同步思考、實(shí)時(shí)調(diào)整、持續(xù)修正」循環(huán)
具體來講，Interleaved thinking 是在顯性推理和工具使用之間交替進(jìn)行，同時(shí)在各步驟之間將推理推進(jìn)。它本質(zhì)上是一個(gè)「思考 → 行動 → 觀察 → 再思考」的動態(tài)循環(huán)。這一過程顯著提升了規(guī)劃、自我糾正和長期工作流程的可靠性。
早期的 ReAct 很大程度上是借助 prompt 工程在外部框架里「硬湊」出的邏輯閉環(huán)，鏈路常因格式或解析問題而中斷；而如今的 Interleaved Thinking（如 MiniMax M2、DeepSeek V3.2）則把這類思考 - 行動模式更深度地融入了模型及其推理流程，讓它更接近一種「原生的思維直覺」，因而更加穩(wěn)健。

圖源：https://t.co/u5DOdvTMtx
為什么它如此重要？
在長鏈路任務(wù)中，Agent 面臨一個(gè)「致命殺手」：狀態(tài)漂移。在復(fù)雜的 Agent 任務(wù)（如編寫一個(gè)完整的游戲模組或進(jìn)行深度行業(yè)調(diào)研）中，交互往往長達(dá)數(shù)十輪。如果模型在每一輪交互中丟棄了上一輪的推理過程，只保留工具的輸出結(jié)果，模型就會陷入「失憶」?fàn)顟B(tài)。
它會忘記「我為什么要運(yùn)行這行代碼」或者「剛才那個(gè)報(bào)錯(cuò)排查到哪一步了」。這種上下文的斷裂會導(dǎo)致模型重復(fù)執(zhí)行無效操作，或者在多輪交互后偏離最初的目標(biāo)。
而 Interleaved Thinking 從根源了解決了「狀態(tài)漂移」問題，使得計(jì)劃、意圖和中間結(jié)論可以跨輪次延續(xù)。

圖源：https://t.co/u5DOdvTMtx
看到這里，可能有讀者會問：這不就是讓模型「記性好」一點(diǎn)嗎？它和現(xiàn)在熱門的 Memory、Long Context 和 RAG 有什么區(qū)別？
其實(shí)，它們解決的是不同維度的「遺忘」問題。
普通的大模型記憶像電腦的硬盤。它側(cè)重于「存事實(shí)」，記住的是用戶的偏好、過往的知識庫或幾天前的對話摘要。確保模型下次見到你，還記得你是誰，之前的項(xiàng)目背景是什么。
Interleaved Thinking 則像電腦的 RAM (內(nèi)存)。它側(cè)重于「存邏輯」，記住的是「我剛才為什么決定這么做」、「我對當(dāng)前步驟的懷疑」、「我下一步的臨時(shí)假設(shè)」，它用來維持正在運(yùn)行的思維鏈狀態(tài)。
當(dāng)然，在實(shí)際工程中，這兩者并非二元對立，而是互為表里。我們往往需要 Long Context 作為巨大的容器，來承載 Interleaved Thinking 產(chǎn)生的大量推理過程。但如果不具備 Interleaved 的「思維動態(tài)維持」能力，單純拉長 Context 只不過是給模型塞了一堆僵死的文字，模型依然會在海量信息中迷失方向。
簡而言之，大模型記憶決定了 Agent 能「懂」多少過去，而 Interleaved Thinking 決定了 Agent 能「走」多遠(yuǎn)未來。
目前，Interleaved Thinking 這一技術(shù)正加速成為「行業(yè)共識」。除了 MiniMax 之外，很多其他頭部大模型廠商也開始采納：
Kimi K2 thinking原生支持 Thinking-in-Tools 能力，掌握了「邊思考、邊操作」的動態(tài)推理節(jié)奏；Gemini 3 Pro確立了「內(nèi)部 Thinking 模式 + 思路簽名（Thought Signature）」的標(biāo)準(zhǔn)，支持多輪 Context 回傳與 Tool-use/Agent 的深度協(xié)同，確保持續(xù)推理不掉線；DeepSeek V3.2推出了首個(gè)將思考深度融入工具使用的 Thinking in Tool-Use 機(jī)制，在工具調(diào)用期間保留推理上下文，實(shí)現(xiàn)了思考與執(zhí)行的無縫銜接。
可以說，Interleaved Thinking 已不再是單一廠商的特色，而逐步成為高性能 Agent 模型的「標(biāo)配」
作為最早官方支持該技術(shù)的開源模型，MiniMax M2 在提升 Interleaved Thinking 的性能與效率上已經(jīng)形成了自己獨(dú)到的一套打法。
既強(qiáng)又省，MiniMax M2 用交錯(cuò)思維定義 Agent 新范式
Interleaved Thinking 的核心價(jià)值在于高強(qiáng)度的「工作記憶」維持能力。正是這種在每一步工具交互中保留并傳遞推理內(nèi)容的機(jī)制，確保了 MiniMax M2 在執(zhí)行長鏈路任務(wù)時(shí)，能夠?qū)崿F(xiàn)高效的自我修正、動態(tài)規(guī)劃與樣本復(fù)用，有效避免了邏輯中斷。
根據(jù) MiniMax M2 的實(shí)測數(shù)據(jù)，保持前輪思維狀態(tài)帶來了顯著的性能提升：在充滿不確定性、極度依賴「觀察 - 調(diào)整」循環(huán)的 BrowseComp（網(wǎng)頁瀏覽任務(wù)）中，保持前輪思維狀態(tài)讓性能從 31.4 躍升至 44.0，漲幅高達(dá) 40.1%；在 Tau2 復(fù)雜工具調(diào)用測試中，性能提升了 35.9%；即使是在本就極高難度的 SWE-Bench Verified 軟件工程基準(zhǔn)上，也依然取得了 3.3% 的顯著增長。

不僅強(qiáng)，而且極其「省」
為了驗(yàn)證這一機(jī)制在真實(shí)開發(fā)流中的威力，AI Agent 系統(tǒng)經(jīng)理 Muratcan Koylan 構(gòu)建了一個(gè)具體的演示：為設(shè)計(jì)系統(tǒng)團(tuán)隊(duì)自動生成一份簡報(bào)。這項(xiàng)任務(wù)需要模型整理關(guān)鍵 Design Tokens（如顏色、排版、間距）、定義按鈕組件的實(shí)現(xiàn)規(guī)范，以及輸出可復(fù)用的開發(fā)模式。

圖源：https://x.com/koylanai/status/1990692277723734153
在這個(gè)演示中，傳統(tǒng)模型試圖「一口吃成胖子」，一次性調(diào)用所有工具，容易導(dǎo)致結(jié)果偏差。而 M2 展現(xiàn)了清晰的節(jié)奏：先獲取顏色 → 反思 → 再請求排版 → 再請求間距。這種「思考 → 行動 → 消化結(jié)果」的循環(huán)，讓每一步?jīng)Q策都通過 reasoning_details 清晰可見，不再是黑盒。

對于開發(fā)者而言，技術(shù)先進(jìn)性最終要通過成本和效率來落地。Muratcan 的測試數(shù)據(jù)還展示了 M2 驚人的經(jīng)濟(jì)性：在這個(gè)包含 8 步推理、7 次工具調(diào)用的完整流程中，MiniMax M2 的總成本僅為 $0.001669。相比同級別的 Claude Sonnet（約 $0.020），M2 便宜了近 12 倍
這意味著，在相同的預(yù)算下，開發(fā)者可以使用 M2 進(jìn)行 12 倍的迭代實(shí)驗(yàn)。Muratcan 指出，這種「高可見性 + 低成本」的組合，讓快速迭代真正變得可行，這對于構(gòu)建復(fù)雜的工具編排和開發(fā)工作流來說，是游戲規(guī)則的改變者。
如何榨干 M2 的全部性能？
盡管 MiniMax M2 能力強(qiáng)大，但在發(fā)布初期，官方社區(qū)反饋發(fā)現(xiàn)了一個(gè)普遍現(xiàn)象：很多開發(fā)者并沒有正確「打開」 Interleaved Thinking。
常見誤區(qū)包括：調(diào)用 API 時(shí)丟棄上一輪推理內(nèi)容、或在使用 Anthropic 格式時(shí)過濾掉了 thinking blocks。一旦上下文斷裂，模型只能從零推理，性能直接腰斬。
為了確保開發(fā)者能榨干 M2 的全部性能，MiniMax 提供了兩種主流 API 格式的最佳實(shí)踐：
MiniMax 官方 API：采用內(nèi)容與推理分離的設(shè)計(jì)，推理過程通過獨(dú)立的 reasoning_details 字段返回，清晰且易于解析。Anthropic 兼容 API：完美適配 Claude 生態(tài)，天然支持多類型內(nèi)容塊，只需保留并回傳 thinking blocks 即可。
這些實(shí)踐表明了，MiniMax M2 正在為困擾業(yè)界已久的 Agent 落地難題，打開了一種全新的解決思路。
在被稱為 Agent 落地元年的 2025 年，直到現(xiàn)在仍有很多 AI 界人士持有悲觀態(tài)度，比如 Andrej Karpathy，他在上上個(gè)月的一次訪談節(jié)目中表示，當(dāng)前市面上的 AI Agent「令人失望」，并預(yù)計(jì)大約還需要 10 年時(shí)間，它們才可能發(fā)展到真正可用、可靠的狀態(tài)。
這里首要解決的一大挑戰(zhàn)便是：模型思考過程與工具執(zhí)行之間真正實(shí)現(xiàn)絲滑、高效的協(xié)作。如今隨著 Interleaved Thinking 的機(jī)制不斷完善，其能力逐步得到充分釋放，這一問題也隨之有了可行性更高的技術(shù)解決方案。
當(dāng)然，Interleaved Thinking 想要贏得更多廠商和開發(fā)者的青睞，少不了其他各環(huán)節(jié)的系統(tǒng)性支持。MiniMax M2 發(fā)布時(shí)，社區(qū)對該技術(shù)的支持非常有限。為了改變這一現(xiàn)狀，MiniMax 采取多種途徑推動該技術(shù)成為可復(fù)用的行業(yè)標(biāo)準(zhǔn)。
過去幾周，MiniMax 與 Kilo Code、RooCode、Cline、OpenRouter、Ollama 等眾多合作伙伴合作，提供了多個(gè)關(guān)鍵 PR，實(shí)現(xiàn)了這些編程工具、API 平臺對 Interleaved Thinking + 原生工具調(diào)用的廣泛、良好支持。同時(shí)，基于內(nèi)部的 Benchmark，MiniMax 與合作伙伴一起對這些實(shí)現(xiàn)進(jìn)行了測試，確保對應(yīng)實(shí)現(xiàn)的正確性和效果。
以 Kilo Code 平臺為例，其已經(jīng)支持最新版本的 MiniMax M2，并默認(rèn)啟用了 Interleaved Thinking 與原生工具調(diào)用的功能。用戶對此高度評價(jià)，「MiniMax M2 + 工具能力 + 免費(fèi)開放 = 絕對的贏家組合」。

圖源：https://x.com/kilocode/status/1990419655991652649?s=20
此外，為了讓開發(fā)者更快掌握 Interleaved Thinking 與 Agent 的最佳實(shí)踐，MiniMax開源了支持該技術(shù)的 Coding CLI——Mini-Agent。通過可直接運(yùn)行的工程示例，用戶可以直觀地看到 MiniMax M2 通過 Interleaved Thinking 構(gòu)建 Agent 的效果。下圖展示了 Agent 使用其網(wǎng)頁搜索工具在線獲取最新信息，并為用戶進(jìn)行總結(jié)。

目前，該項(xiàng)目已獲得了 700 + 的 Star，在社區(qū)中的關(guān)注度持續(xù)提高。

GitHub 地址：https://github.com/MiniMax-AI/Mini-Agent
社區(qū)和生態(tài)建設(shè)層面的一系列舉措意味著，MiniMax 正為行業(yè)構(gòu)建一套更標(biāo)準(zhǔn)化、工程化的 Agent 執(zhí)行范式。這些舉措也將加速讓 Interleaved Thinking 從模型內(nèi)部的技術(shù)特性演變?yōu)殚_發(fā)者可直接調(diào)用與集成的能力。
隨著包括 MiniMax M2 在內(nèi)的大模型展現(xiàn)出了高效穩(wěn)定的 Agentic 能力，未來可能有更多廠商采用類似技術(shù)，并將推動更多 API 平臺和編程工具完善相應(yīng)的支持與適配。
Agent 邁向真正生產(chǎn)級階段的轉(zhuǎn)折點(diǎn)，或許已經(jīng)從 Interleaved Thinking 開始了。

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系我們，本站將會在24小時(shí)內(nèi)處理完畢。

同類資訊

Windows 11任務(wù)欄至今仍無法自由移動！微軟終于給出原因：沒用舊代碼

東安動力首臺轉(zhuǎn)子發(fā)動機(jī)R05E點(diǎn)火成功，2027年量產(chǎn)

挑戰(zhàn)液態(tài)海洋共識：NASA研究稱土衛(wèi)六含太陽系最大“冰沙”

曝TikTok交易達(dá)成，美國和字節(jié)跳動各掌握一家公司

AI賦能流程神州數(shù)碼汽車行業(yè)AI 應(yīng)用落地研討會在滬舉辦

希迪智駕港交所上市，成港股首家商用車智能駕駛公司

全站最新

Windows 11任務(wù)欄至今仍無法自由移動！微軟終于給出原因：沒用舊代碼

東安動力首臺轉(zhuǎn)子發(fā)動機(jī)R05E點(diǎn)火成功，2027年量產(chǎn)

挑戰(zhàn)液態(tài)海洋共識：NASA研究稱土衛(wèi)六含太陽系最大“冰沙”

曝TikTok交易達(dá)成，美國和字節(jié)跳動各掌握一家公司

熱門推薦

基于阿里千問，烏干達(dá)打造本土大模型

比亞迪正式進(jìn)入伊拉克市場，推出BYD SHARK 6

金沙酒業(yè)營銷負(fù)責(zé)人更迭，王維龍離職，韓玉國接棒

Windows 11任務(wù)欄至今仍無法自由移動！微軟終于給出原因：沒用舊代碼

東安動力首臺轉(zhuǎn)子發(fā)動機(jī)R05E點(diǎn)火成功，2027年量產(chǎn)

挑戰(zhàn)液態(tài)海洋共識：NASA研究稱土衛(wèi)六含太陽系最大“冰沙”

曝TikTok交易達(dá)成，美國和字節(jié)跳動各掌握一家公司

AI賦能流程神州數(shù)碼汽車行業(yè)AI 應(yīng)用落地研討會在滬舉辦

希迪智駕港交所上市，成港股首家商用車智能駕駛公司

千問App辟謠：全員大會集體吃豆包圖是AI生成的

你的“大廠經(jīng)驗(yàn)”，在AI面前可能一文不值

科學(xué)與健康|改寫生命演化史！2025我國古生物學(xué)研究在多領(lǐng)域取得突破

他設(shè)計(jì)的手機(jī)賣了1.5億臺 | 我們的四分之一世紀(jì)

VEX機(jī)器人亞洲公開賽在京開幕，全球近30國青少年選手參賽

拼多多：趙佳臻獲任聯(lián)席董事長，與陳磊共同擔(dān)任集團(tuán)聯(lián)席董事長兼聯(lián)席CEO