近期,科技界迎來了一場震撼發布——馬斯克麾下的xAI公司推出了備受矚目的Grok 3人工智能模型。這款被譽為“地球上最聰明的人工智能”的新品,在直播發布會上吸引了超過百萬觀眾的矚目,馬斯克親自站臺,展示了其無與倫比的實力。
Grok 3背后的超級計算機集群Colossus,擁有驚人的20萬塊GPU,為其提供了強大的算力支持。在多項AI基準測試中,Grok 3展現出了卓越的能力,尤其是在數學、科學和編程領域,其表現更是令人瞠目結舌。例如,在美國數學邀請賽(AIME)的模擬測試中,Grok 3取得了52分的高分,遠超ChatGPT的20分。在GPQA測試中,Grok 3更是以滿分75分的成績傲視群雄,而ChatGPT僅得57分。在編程能力的比拼中,Grok 3同樣以57分大幅領先ChatGPT的28分。

發布會上,馬斯克還展示了Grok 3的另一項絕技——生成復雜動畫和游戲。這一能力在其他AI模型中極為罕見,無疑為Grok 3增添了更多的神秘色彩。然而,盡管在基準測試中表現出色,Grok 3在實際應用中卻遭遇了一些挑戰。部分用戶反饋稱,在處理特定問題時,Grok 3的回答會出現錯誤,這引發了對其穩定性的質疑。對于經濟學和社會學等領域的問題,Grok 3的回答也顯得不夠精準,這或許是因為模型訓練時未能全面覆蓋這些領域。
盡管Grok 3在多項測試中取得了優異成績,但它仍未能解決“表情符號之謎”這一困擾AI模型多年的難題。這一挑戰仍然擺在Grok 3面前,等待其去攻克。

事實上,Grok 3已經成為第一個在AI基準測試平臺lmarena.ai上得分超過1400分的模型,這一成績在該平臺上堪稱天花板級別。相比之下,其他模型如ChatGPT的得分僅在1000分左右。然而,盡管Grok 3在理論上取得了如此輝煌的成就,但在實際應用中仍需面對諸多挑戰。用戶對其穩定性和特定領域知識覆蓋面的質疑,將成為其未來能否在市場上站穩腳跟的關鍵。





京公網安備 11011402013531號