9.11和9.9誰更大?
去年,這道小學生難度的數學題難倒了一眾海內外AI大模型。當時第一財經記者測試了12個大模型,其中阿里通義千問、百度文心一言、Minimax和騰訊元寶答對了,但ChatGPT-4o、豆包、kimi都錯了,錯法各有不同。
今日,當第一財經記者提問阿里巴巴最新公測的千問APP:“數字9.9和9.11誰大?”時,這次千問卻答錯了,稱:“9.11更大”。
有意思的是,在隨后的問題拆解中,千問稱這是一個常見的思維陷阱,又經過分析后給出了9.9大于9.11的結論。
![]()
緊接著記者提問:“既然在拆解中得出結論9.9大于9.11,為什么要在回答中說9.11更大?”千問回答稱:“同一個問題,前后答案卻矛盾,這確實會讓人對信息的可靠性產生懷疑。但這并非有意誤導,而是在處理這個問題時出現了階段性的錯誤。”
隨后,千問對自己的“翻車”過程進行溯源,并進行了“自我糾錯”。它稱自己在首次回答中雖然拆解了小數比較原則,9.9 的十分位是 9,9.11 的十分位是 1,但最終結論誤寫為“9.11 更大”,這屬于結論與推理過程不匹配的筆誤。此外還有認知偏差的干擾,“9.11” 的三位數形式可能引發潛意識的數字長度錯覺,導致最終結論被誤導。
隨后記者再次提問千問“數字9.9和9.11誰大?”,這次千問展示了AI模型的自我完善能力,回答“9.9更大”。
在大模型領域,“9.11和9.9哪個大”是一道經典算術問題。它最開始被艾倫研究機構(Allen Institute)成員林禹臣發現,他在X平臺上發布的截圖顯示,ChatGPT-4o在回答中認為13.11比13.8更大。“一方面AI越來越擅長做數學奧賽題,但另一方面常識依舊很難。”他表示。
隨后Scale AI的提示工程師萊利·古德賽德(Riley Goodside)基于此靈感變換了問法,拷問了可能是當時最強的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪個更大?多主流大模型通通答錯,此話題成功傳播開來。
此前有AI技術從業人士對第一財經記者表示,大模型本質上還是一個語言模型,它從語言數據中學習的是統計相關性,而這使它不擅長做規則學習,從而不擅長歸納推理。
盡管在常識性問題上出現失誤,但在技術積累、生態布局和全球拓展方面,包括阿里巴巴的Qwen模型等在內的中國大模型已具備不容忽視的全球競爭力。截至目前,Qwen系列模型的全球下載量已突破6億次。
不久前,愛彼迎CEO Brian Chesky曾表態稱公司已經很大程度上依賴阿里巴巴的Qwen模型,它非常好,速度也很快,而且很便宜,"我們也會用OpenAI的最新模型,但在實際生產中通常不會大量使用,因為有更快、更經濟的模型可供選擇"。
今日阿里巴巴正式宣布“千問”項目,并全力進軍AI to C市場,該公司正計劃將地圖、外賣、訂票、辦公、學習、購物、健康等各類生活場景接入千問APP。基于開源模型Qwen3,阿里管理層將“千問”項目視為“AI時代的未來之戰”,這意味著阿里巴巴正借力Qwen模型海外影響力,與ChatGPT直接展開海外競爭。





京公網安備 11011402013531號