阿里公測千問對標ChatGPT，但9.9和9.11誰大還是“翻車”了

IP屬地中國·北京 第一財經資訊 時間：2025-11-17 18:08:50

9.11和9.9誰更大？
去年，這道小學生難度的數學題難倒了一眾海內外AI大模型。當時第一財經記者測試了12個大模型，其中阿里通義千問、百度文心一言、Minimax和騰訊元寶答對了，但ChatGPT-4o、豆包、kimi都錯了，錯法各有不同。
今日，當第一財經記者提問阿里巴巴最新公測的千問APP：“數字9.9和9.11誰大？”時，這次千問卻答錯了，稱：“9.11更大”。
有意思的是，在隨后的問題拆解中，千問稱這是一個常見的思維陷阱，又經過分析后給出了9.9大于9.11的結論。

緊接著記者提問：“既然在拆解中得出結論9.9大于9.11，為什么要在回答中說9.11更大？”千問回答稱：“同一個問題，前后答案卻矛盾，這確實會讓人對信息的可靠性產生懷疑。但這并非有意誤導，而是在處理這個問題時出現了階段性的錯誤。”
隨后，千問對自己的“翻車”過程進行溯源，并進行了“自我糾錯”。它稱自己在首次回答中雖然拆解了小數比較原則，9.9 的十分位是 9，9.11 的十分位是 1，但最終結論誤寫為“9.11 更大”，這屬于結論與推理過程不匹配的筆誤。此外還有認知偏差的干擾，“9.11” 的三位數形式可能引發潛意識的數字長度錯覺，導致最終結論被誤導。
隨后記者再次提問千問“數字9.9和9.11誰大？”，這次千問展示了AI模型的自我完善能力，回答“9.9更大”。
在大模型領域，“9.11和9.9哪個大”是一道經典算術問題。它最開始被艾倫研究機構(Allen Institute)成員林禹臣發現，他在X平臺上發布的截圖顯示，ChatGPT-4o在回答中認為13.11比13.8更大。“一方面AI越來越擅長做數學奧賽題，但另一方面常識依舊很難。”他表示。
隨后Scale AI的提示工程師萊利·古德賽德（Riley Goodside）基于此靈感變換了問法，拷問了可能是當時最強的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪個更大？多主流大模型通通答錯，此話題成功傳播開來。
此前有AI技術從業人士對第一財經記者表示，大模型本質上還是一個語言模型，它從語言數據中學習的是統計相關性，而這使它不擅長做規則學習，從而不擅長歸納推理。
盡管在常識性問題上出現失誤，但在技術積累、生態布局和全球拓展方面，包括阿里巴巴的Qwen模型等在內的中國大模型已具備不容忽視的全球競爭力。截至目前，Qwen系列模型的全球下載量已突破6億次。
不久前，愛彼迎CEO Brian Chesky曾表態稱公司已經很大程度上依賴阿里巴巴的Qwen模型，它非常好，速度也很快，而且很便宜，"我們也會用OpenAI的最新模型，但在實際生產中通常不會大量使用，因為有更快、更經濟的模型可供選擇"。
今日阿里巴巴正式宣布“千問”項目，并全力進軍AI to C市場，該公司正計劃將地圖、外賣、訂票、辦公、學習、購物、健康等各類生活場景接入千問APP。基于開源模型Qwen3，阿里管理層將“千問”項目視為“AI時代的未來之戰”，這意味著阿里巴巴正借力Qwen模型海外影響力，與ChatGPT直接展開海外競爭。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

TikTok簽署協議，將美國業務出售給甲骨文等主導的合資企業

谷歌安卓16調整Emoji表情設計，風格向iOS靠攏

周受資內部信曝TikTok美國方案；騰訊辟謠元寶由真人運營丨邦早報

TikTok美國業務新進展：字節保留電商、廣告等，引入三方組新合資公司負責數據安全

AI浪潮下，10年后的頂尖高校拼什么？丨GAIR 2025

極數迭代CEO佟顯喬：具身智能的數據工程解決方案思考丨GAIR 2025

全站最新

TikTok簽署協議，將美國業務出售給甲骨文等主導的合資企業

谷歌安卓16調整Emoji表情設計，風格向iOS靠攏

周受資內部信曝TikTok美國方案；騰訊辟謠元寶由真人運營丨邦早報

TikTok美國業務新進展：字節保留電商、廣告等，引入三方組新合資公司負責數據安全

熱門推薦

授權亂象頻出，誰的同仁堂？

當“野性消費”退潮：鴻星爾克留下了什么？

英氏控股的優勢只有品牌和廣告嗎？

為什么蘋果、華為，都干不過小天才？

豪擲10億美金投資OpenAI！迪士尼終于對AI妥協了？（深度觀察）

從“寧王”到“易中天”，時代的“魚群”在遷徙

阿維塔赴港IPO：一場針對“依附者”的價值審視

“鐵飯碗”銀行也開始末位淘汰了？普通人有機會，但沒退路

君樂寶，想要逃出伊利、蒙牛的“五指山”

5 個月估值翻 3 倍！瑞典 AI 巨頭 Lovable 獲 3.3 億美元 B 輪融資

十億流量瞬間清零!YouTube 永久封禁兩大 AI 虛假預告片“鼻祖”頻道

OpenAI 更新 ChatGPT 以強化未成年人保護措施

告別信息淹沒！ChatGPT 推出聊天置頂功能，讓重要對話觸手可及

Meta 官宣2026上半年發布 Mango 系列下一代模型

ChatGPT 移動應用全球用戶支出突破 30 億美元