此前,馬斯克在社交平臺 X 上貼出了一道數學題,并表示如果有人解開這個問題,就有資格在特斯拉公司工作,引起了很多網友的討論。
這是一道算式題:6÷2 (1+2)。
在推文下面,網友紛紛給出了自己的答案,但結果卻呈現“兩極化”,有人認為答案是“1”,有人認為答案是“9”。

其實對于這道題目,美國史丹佛大學教授、數學家塔沃克(Presh Talwalkar)在 8 年前就曾發視頻做過解釋,大致意思是遵循從左至右的運算規則,先將括號內的 1+2 算出,得到 6÷2×3 的算式,然后乘、除號位階相等,由左至右計算,會得出答案為 9。

但同時塔沃克也在視頻中說,1917 年的數學運算規則與現在有些不一樣,按照過去的算法,當時規定碰到除法時,應該將左邊整個算式除以右邊整個算式,所以答案為 1。
也就是說,以現在的運算規則來看,這道題的準確答案是 9,但說答案為 1 的,也有一定的緣由。
看到這,突然想到,如果把這個比較有爭議的問題讓 AI 大模型來回答,它是否能給出準確的答案?又是否能判斷出其中的“爭議”所在呢?
想到不如立刻行動,于是小編找來各大知名廠商最新的 AI 大模型,來進行一番對比測試,看看不同的模型面對這個問題時會有怎樣的表現。
在測試前需要特別說明的是,由于這道題目具有相當的迷惑性和爭議性,因此在測試時,小編會重點查看大模型推理的過程是否能將其中的關鍵步驟考慮到,并在輸出結果中對這一爭議點進行解釋。
同時為了重點測試各大模型的推理能力,以及避開在線搜索信息對結果的影響,測試時小編只用各家最新的深度推理模型來進行測試,并關閉了“聯網搜索”功能。
1、訊飛星火 X1
小編首先使用的是科大訊飛的訊飛星火大模型。值得一提的是,最近科大訊飛深度推理大模型 —— 訊飛星火 X1 迎來全新升級,這是當前業界唯一基于全國產算力訓練的深度推理大模型,升級后的星火 X1 在數學、代碼、邏輯推理、文本生成、語言理解、知識問答等通用任務上效果顯著提升。

來看訊飛星火在面對這個問題時的實際表現,小編將馬斯克的帖子截圖進行上傳,然后對它說“請回答一下圖片里面的這道數學題”,訊飛星火 X1 能準確識別圖片中的數學題,然后進行推理和思考。
觀察訊飛星火 X1 的推理過程,它先是按照我們上面所說的現代運算順序算出了正確結果,但同時,它也考慮到了將 2 (1+2) 當成一個整體的情況,并指出關鍵在于“運算順序的理解”,然后訊飛星火進一步引用數學上的 PEMDAS / BODMAS 規則,解釋了將 2 (1+2) 視為一個整體,則需要額外的括號的原則,再次肯定正確的答案就是 9。

在推理過程中,我們還能看到訊飛星火也考慮到了以往網絡對這一問題存在的爭議,并表示這種情況下需要明確題目的書寫方式是否有隱含的括號,或者是遵循某種特定的慣例。
整體來說,訊飛星火 X1 深度推理大模型對于這個問題的思考過程是非常細致、全面的,既明確了現代算法下的正確答案,也對可能存在的爭議點進行了解惑。
再看訊飛星火最終輸出的答案,先給出了按照 PEMDAS / BODMAS 規則運算的正確答案是 9。然后特別給我們指出了潛在誤解的情況,就是如果將 2 (1+2) 視為整體的話,應該有一個隱含的括號,即 6 ÷ [2×(1+2)],這樣才是正確的書寫方式。不僅如此,訊飛星火還在回答的最后給出了延伸討論,指出在實際考試或嚴謹場合中,應通過括號避免歧義,如明確寫成 6 ÷ [2 (1+2)] 或 (6 ÷ 2)(1+2))。

總體而言,訊飛星火 X1 的推理過程通順嚴謹,考慮的情況也很全面,輸出的結果不僅給出了正確答案,還對爭議點進行了解惑,整個回答可以說是找不到什么問題,可見這最新的訊飛星火 X1 深度推理大模型表現確實不錯。
2、DeepSeek R1
接下來,小編又用 DeepSeek R1 模型進行了測試,還是上傳截圖讓 DeepSeek R1 進行識別。可以看到 DeepSeek R1 的深度思考過程,也是先按照 PEMDAS / BODMAS 規則運算出了正確的結果。然后又通過“對嗎?”話鋒一轉,開始思考將 2 (1+2) 視為一個整體的情況,但是對于這個情況的思考過程有點啰嗦,雖然也提到了隱式括號的問題,但沒有給出有中括號的正確寫法,雖然思考的過程是正確的,但內容上稍有含糊。

再看輸出的結果,先是給出了正確的運算步驟和結果,不過輸出答案“9”時出現了不明意義的代碼,而且對于爭議點的說明也不夠詳細明確。

3、字節豆包 1.5
然后小編測的是豆包 1.5 深度思考模型,也是上傳截圖讓它來回答圖中的數學題,豆包大模型的思考過程相對簡單,先是按照四則運算法則算出了正確的結果 9,然后也提到了把 2 (1+2) 看做一個整體的情況,并給出了看成整體的話應該寫作 6÷[2 (1+2)],但這里沒有中括號,所以還是應該按照從左到右的順序進行計算。可以看到,豆包大模型雖然思考過程簡單,但言簡意賅,核心的要點解釋得比較清楚。

不過,正式的輸出結果中,雖然給出了正確的計算步驟和結果,但對于爭議點的解釋反而又比較含糊了,不如推理過程中說得清晰。
4、文心 X1 Turbo
接著,小編用百度剛剛發布的文心 X1 Turbo 模型進行測試,由于文心 X1 Turbo 模型在深度思考模式下不支持上傳圖片,所以小編直接手動輸入問題“請回答這道數學題:6 ÷ 2 (1+2)=?”。
文心 X1 Turbo 模型也是一樣,先給出了正確的運算步驟和結果,然后考慮能不能將 2 (1+2) 看成一個整體的問題,文心 X1 Turbo 的解釋是算式中的括號只是提高了“1+2”的優先級,但沒有提高省略的“×”的優先級,所以“×”和“÷”還是同階的,要按照從左到右的順序來運算。雖然思考的過程稍顯繁瑣,但整體內容上沒什么問題。

再看輸出的結果,先給出按照 PEMDAS / BODMAS 運算規則的正確結果,然后提示將 2 (1+2) 誤解為整體的關鍵點,雖然給出的解釋也比較簡潔,但整體邏輯上是沒什么問題的。

5、騰訊混元 T1
然后我們再看騰訊混元 T1 模型的回答,還是先看思考的過程。
騰訊混元 T1 的思考過程整體看下來是沒什么問題的,對于能不能將 2 (1+2) 看成整體的解釋也比較明確,還給出了可以看成整體時的正確寫法:6 ÷ [2×(1+2)]。

不過,在輸出的答案中,對于這一爭議點的解釋反而又略顯含糊了,如果有同學沒有看思考過程的話,只看輸出的答案還是不能理解為什么不能將 2 (1+2) 看作整體優先計算。

6、通義千問 Qwen-QwQ-32B
下面我們再看看通義千問是怎么解決這個問題的吧,小編還是選擇通義千問的深度思考模型。
千問的思考過程中,先按照 PEMDAS / BODMAS 原則給出了正確的運算結果,重點是對于能不能將 2 (1+2) 看成整體的思考,這一方面千問給出的解釋比較含糊,有點車轱轆話反復說的意思,沒有說到要點上。

再看輸出的結果,只是給出了這道題正確的步驟和結果,并沒有對爭議點進行解釋和說明。

6、OpenAI o3
除了國內的這幾家模型,還測試了國外的兩家模型,首先是 OpenAI o3,o3 大模型沒有給出推理過程,不過在輸出的結果中詳細展示了它的解題和思考邏輯,所以我們直接看輸出的結果。

首先,OpenAI o3 給出了按照 PEMDAS / BODMAS 原則詳細的計算過程和正確的答案:9。
然后我們看 OpenAI o3 對爭議的解釋,即能不能把 2 (1+2) 看成一個整體優先計算,OpenAI o3 的解釋過程很嚴謹,問題的關鍵說得也很清楚,明確表示爭議點事在沒有括號的情況下自行施加了額外的運算次序,這并不符合普遍的約定。同時 OpenAI o3 還科普了一下在某些特性語境或舊式計算工具中,隱式乘法(如緊挨括號的乘法)普被視為比除法更高的優先級的情況,但這并不是普遍的數學教學標準。

整體來看,OpenAI o3 模型的回答結果也很讓人滿意,基本上和訊飛星火 X1 的回答是一個水平。
7、Grok 3
最后,還用馬斯克自家的 Grok 3 深度思考模型進行了測試。Grok 3 的思考過程和前面的通義千問有點類似,都是先計算正確的結果,但是對爭議點能不能把 2 (1+2) 看成整體的解釋相對含糊。

不過在輸出的結果中,Grok 3 的解釋比思考過程更清晰,明確表示如果看作一個整體,應該寫作 6 ÷ [2 (1 + 2)],這樣一說就簡潔明了了。

結語
總結一下,通過用馬斯克貼出的這道引發熱議的數學算式題,測試了 7 款大模型面對這一問題的思考和解答,總體來說,訊飛星火 X1 深度推理大模型和 OpenAI o3 的表現最為讓人滿意,無論是思考的過程還是答案的輸出都比其他模型更加嚴謹、完善,同時對于“能不能把 2 (1+2) 看成一個整體優先計算”這一關鍵爭議點的解釋也更加詳細和有理有據,能說到重點上,讓人一看就能明白。

其次文心 X1 Turbo 模型的思考過程和回答輸出也比較不錯,讓人能夠一眼看懂。而 DeepSeek R1、騰訊混元 T1、Grok 3、豆包 1.5 的表現雖然也還可以,但或是在思考過程或是在回答輸出方面都有改進的空間。通義千問方面對于爭議點的解釋在思考過程和回答輸出方面都有些含糊。
當然,最后要說的是,這次小編只是借馬斯克貼出的“出圈”數學題做了一次小測試,樣本數有限,僅供大家參考,并不能用來評價各家大模型真實、全面的水平。同時也能看到如今 AI 大模型的深度推理能力確實有了很大的提升,思考推理的過程流暢自然,很像是人類的思考過程了,相信隨著模型技術的持續發展,AI 能夠幫助我們解決越來越多的問題,為我們的工作和生活帶來更多的便利。





京公網安備 11011402013531號