2025-03-07 11:00:16 作者:
繼今年1月15日訊飛發布深度推理模型星火X1后,3月3日,星火X1迎來了升級。同時基于星火X1升級版,首發星火醫療大模型X1,在診斷推薦、健康咨詢等醫學任務上效果領先。
作為采用全國首個、也是目前唯一一個基于國產算力訓練的深度推理大模型,科大訊飛官方稱,星火X1升級版在模型參數量較少的情況下,實現了數學能力與DeepSeek R1和OpenAI o1的全面對標。
星火X1升級版的數學能力到底如何,能否真的對能標DeepSeek R1,還需要我們親自動手驗證。
下面的10道試題,涉及小、初、高及奧數。本著一視同仁的原則,每題10分,滿分100,以最后得分多者為勝,看看星火X1升級版和DeepSeek R1誰才是數學殿堂里的王者。
試題1:
《五年級方程超難易錯題》
某班有學生45人,會下象棋的人數是會下圍棋人數的3.5倍,兩種棋都會及兩種棋都不會的都是5人,求只會下圍棋的人數。(設未知數并列方程求解)
星火X1

DeepSeek R1

兩大模型都給出了正確答案,各得10分。
試題2:
《小學奧數盈虧問題題庫》
幼兒園老師給小朋友分糖果.若每人分8塊,還剩10塊;若每人分9塊,最后一人分不到9塊, 但至少可分到一塊.那么糖果最多有多少塊?
星火X1

DeepSeek R1

再次雙贏,各得10分
試題3:
《2024年重慶市中考數學試題A卷數學試題》

星火X1


DeepSeek R1

正確,兩大模型各得10分。
試題4:
《2024年重慶市中考數學試題A卷數學試題》
星火X1

DeepSeek R1

兩大模型回答正確,各得10分。
試題5:
《2024年重慶市中考數學試題A卷數學試題》

星火X1

DeepSeek R1

兩大模型回答正確,各得10分。
試題6:
《2024年重慶市中考數學試題A卷數學試題》

星火X1

DeepSeek R1

星火X1完美給出了三小題的答案,得10分,DeepSeek給出的答案中(1)正確,(2)錯誤,(3)兩個坐標只給出了一個,以4個答案共10分計算,每個答案分別為2.5分,因此這道題DeepSeek共得5分。
試題7:
《2024年新高考數學全國一卷試卷(新高考Ⅰ)》
星火X1


DeepSeek R1


回答正確,各得10分
試題8:
《2024年新高考數學全國一卷試卷(新高考Ⅰ)》:
星火X1

DeepSeek R1
星火X1給出的兩小題答案全部正確,得10分;DeepSeek此輪表現不佳,0分。
試題9
《初中奧數常考試題類型100例》)
已知三角形的三個內角的和是 180°,如果一個三角形的三個內角的度數都是小于 120 的質數,則這個三角形三個內角的度數分別是___。
星火X1

DeepSeek R1

星火X1只給出一個答案,實際上,該題還有一個答案,即2°、89°、89°,同樣也能滿足題意,因為漏失一個答案,得5分。DeepSeek回答正確,得10分。
試題10:
《2024年全國中學生數學奧林匹克競賽(預賽)暨2024年全國高中數學聯合競賽一試試卷(A卷)》
星火X1

DeepSeek R1

星火X1回答正確,得10分;DeepSeek回答錯誤,不得分。
小結:
上面我們對剛升級的訊飛星火深度推理大模型X1做了簡單的測試,從它和當前熱度很高的DeepSeek的PK情況來看,星火X1的表現很出色,10道題僅錯了半題,總得分95分,相比之下,DeepSeek表現略差,錯了兩題,半錯一題,總得分75分。
此外,在使用過程中我們還發現,DeepSeek廣被詬病的服務器繁忙、無法回答問題的情況仍然存在。

此次評測大約用去5個小時,其中約有一大半時間是浪費在反復發送問題,等待DeepSeek的回復上,徒耗了精力,一定程度上拉低了使用體驗。





京公網安備 11011402013531號