【頭部財經(jīng)】近日,小米AI lab的研究者們進(jìn)行了一項實驗,測試了10個大語言模型在中國小學(xué)數(shù)學(xué)題上的表現(xiàn)。實驗結(jié)果顯示,OpenAI的GPT-4模型可以較好地解答中文小學(xué)數(shù)學(xué)題,但和人類相比還有差距;而國產(chǎn)大模型在實驗中的表現(xiàn)相對較差。

首先,這項實驗的數(shù)據(jù)集來自于開源的小學(xué)練習(xí)冊和考卷,共包含1700道小學(xué)數(shù)學(xué)題。每道題都標(biāo)注了年級、推理步數(shù)和最大有效數(shù)字位數(shù)等難度信息。實驗中,研究者們選取了零監(jiān)督設(shè)置,以最原始的方式評價大模型的表現(xiàn)。
在實驗結(jié)果方面,GPT-4模型在所有年級的題目中都能拿到60分以上的成績,而ChatGPT只能達(dá)到小學(xué)四年級及格的水平。國產(chǎn)大模型中,只有ChatGLM2與Ziya-LLaMA-13B能達(dá)到小學(xué)二年級及格的水平,其他模型在一年級的問題中表現(xiàn)也不盡如人意。
此外,實驗還考察了不同模型在不同推理步驟和數(shù)據(jù)位數(shù)問題上的表現(xiàn)。結(jié)果顯示,當(dāng)推理步數(shù)較多或數(shù)字位數(shù)較大時,國產(chǎn)大模型表現(xiàn)下滑明顯。為了檢測大模型的魯棒性,研究者還嘗試在問題中增加干擾條件。實驗結(jié)果表明,GPT-4具有較強(qiáng)的抗干擾能力,而其他大模型在抗干擾上表現(xiàn)不佳。
總體來看,雖然GPT-4在實驗中表現(xiàn)出相對較好的性能,但與人類相比仍有差距。同時,國產(chǎn)大模型在解決小學(xué)數(shù)學(xué)問題上的表現(xiàn)不盡如人意。這表明在人工智能領(lǐng)域,我們還需要進(jìn)一步加強(qiáng)國產(chǎn)大模型的研究,以提高其性能和競爭力。
對于這一實驗結(jié)果,有專家表示,雖然人工智能在自然語言處理、圖像識別等領(lǐng)域已經(jīng)取得了很大進(jìn)展,但在解決數(shù)學(xué)問題等邏輯推理方面仍存在挑戰(zhàn)。此外,由于中文語言本身的復(fù)雜性,以及國內(nèi)人工智能領(lǐng)域發(fā)展相對滯后等原因,導(dǎo)致國產(chǎn)大模型在這次實驗中表現(xiàn)不佳。
也有專家指出,這一實驗結(jié)果提醒我們,人工智能技術(shù)的發(fā)展需要更多的投入和時間。在鼓勵創(chuàng)新的同時,也需要加強(qiáng)基礎(chǔ)研究、培養(yǎng)優(yōu)秀人才,以提高我國在人工智能領(lǐng)域的整體競爭力。
總之,這項實驗為我們提供了一個全新的視角,展示了人工智能在不同領(lǐng)域的應(yīng)用和挑戰(zhàn)。未來,隨著技術(shù)的不斷發(fā)展和研究的深入,我們期待人工智能能夠更好地服務(wù)于人類社會。





京公網(wǎng)安備 11011402013531號