
前幾天蘋果寫了一篇名為《The Illusion of Thinking:
Understanding the Strengths and Limitations of Reasoning Models
via the Lens of Problem Complexity》論文,在這篇paper中蘋果試圖證明:DeepSeek R1,OpenAI o3, Anthropic Claude 等推理模型根本沒有推理能力

這篇論文一經上線就在全網引起了很多爭議,有的人認為蘋果是因為AI落后了,才寫出了這篇文章,現在更精彩的的來了,這次反擊蘋果的不是人類,而是Anthropic最新的模型 Claude Opus,Claude Opus作為第一作者寫了一篇反駁論文《思維幻覺的幻覺(The Illusion of the Illusion of Thinking)》

這篇發表在科研預印本網站 arXiv 上Claude Opus寫的論文,逐一駁斥了蘋果論文的核心論點,指出其所謂的“推理崩潰”更多是源于實驗設計的局限性,而非AI本身存在根本性的推理缺陷
蘋果的論點:AI存在“推理崩潰”的硬上限
在蘋果的《思維的幻覺》論文中,研究人員通過一系列規劃類謎題(如漢諾塔、過河問題)對大語言模型(LRMs)進行測試。他們發現,當問題的復雜度超過某個閾值后,模型的準確率會“斷崖式”地跌至零。由此,他們得出結論:AI的推理能力存在一個根本性的上限,這是一種“思維的幻覺”。
Claude的反擊:不是推理崩潰,而是實驗設計的“幻覺”**
由Claude Opus撰寫的《思維幻覺的幻覺》一文,像一位嚴謹的科研人員一樣,指出了蘋果研究中的三大關鍵問題:
1. 混淆了“推理失敗”與“輸出截斷”
蘋果在測試“漢諾塔”問題時,要求模型完整輸出所有移動步驟。漢諾塔問題的步驟數隨盤片數量(N)呈指數級增長(2^N - 1),很快就會產生極長的答案
C. Opus的論文指出,模型并非在推理上失敗,而是觸發了輸出token(字符)的數量上限。更有力的證據是,在一些復現實驗中,模型會明確表示:“模式還在繼續,但為了避免內容過長,我將在此停止。”
這表明,模型完全理解解題的遞歸模式,只是因為實際的輸出限制而選擇截斷。蘋果的自動化評估系統無法區分“我不會解”和“我選擇不完整列出”,從而錯誤地將其判定為“推理崩潰”。
2. 用“無解題”來測試并判定模型失敗
這篇反駁論文最尖銳的批評,直指蘋果在“過河問題”實驗中的一個致命錯誤
論文指出,蘋果測試了當參與者數量 N≥6 且船容量 b=3 的情況。然而,根據早已被證明的數學結論,這種設定下的過河問題是無解的。
蘋果的研究人員讓AI去解決一個數學上不可能解決的問題,然后因為AI沒能給出解決方案,就給它打了零分。C. Opus犀利地評論道:“這相當于因為一個SAT求解器在面對一個無解的公式時返回‘無法滿足’,就懲罰這個求解器。”
3. 對“問題復雜度”的衡量標準存在偏差
蘋果的論文主要使用“解題步驟的長度”(即 compositional depth)來衡量問題的復雜度,但這并不能完全反映解決問題所需的“智力”水平
C. Opus的論文對此進行了澄清:
漢諾塔:雖然解題步驟非常多(呈指數級增長),但每一步的決策邏輯極其簡單(O(1)的復雜度),幾乎不需要搜索
過河問題與積木世界:解題步驟相對少得多,但每一步都需要進行復雜的約束滿足和搜索,屬于NP-hard或PSPACE級別的難題
因此,模型能解決上百步的漢諾塔,卻在幾步的過河問題上失敗,這恰恰反映了不同問題在計算復雜度上的本質差異,而非一個統一的“推理能力上限”
換個問法,AI的能力瞬間“恢復”
為了進一步證明其觀點,C. Opus進行了一項關鍵的補充實驗。不再要求模型輸出漢諾塔N=15時的所有步驟(這需要海量的token),而是改變了提問方式:
“請解決15個盤片的漢諾塔問題。輸出一個Lua程序,當調用該程序時,它會打印出解決方案。”
結果,包括Claude、GPT-4o、Gemini在內的多個模型,都輕松地生成了正確的遞歸算法程序,并且只用了不到5000個token。這有力地證明了,模型完全理解問題的核心邏輯,只是被最初那種“必須窮舉輸出”的死板評估方式所束縛。
結論:我們需要更聰明的評估方法
《思維幻覺的幻覺》在結論中寫道,蘋果的研究所揭示的,并非AI基礎推理能力的局限,而是現有評估方法的一些工程性問題:模型無法輸出超過其上下文長度的內容、自動評估腳本可能存在漏洞、解題步驟的長度并不能準確衡量智力難度
如果用一句話總結Claude Opus的反駁就是:
“問題的關鍵不在于大模型能否推理,而在于我們的評估方法能否將真正的‘推理能力’與簡單的‘打字輸出’區分開來。”





京公網安備 11011402013531號