導讀
在智能時代,AI的崛起讓我們不禁猜想,究竟什么是人類獨有的特質?一項來自以色列的研究揭示了大語言模型在認知能力測試中的尷尬表現,只有ChatGPT4o勉強過關。這究竟說明了什么?是AI的局限,還是人類能力的珍貴?繼續往下看,看看這項研究如何揭示人類與機器之間的深刻差異。

人類特有能力的珍貴
在智能時代,我們愈發感受到人類特有能力的珍貴,特別是同理心和用自己的經驗判斷事物的能力。在以色列哈達薩醫學中心的一項研究中,我們看到這樣一個現象:主流的大語言模型在認知能力的測試中表現得相當糟糕,幾乎全軍覆沒,只有OpenAI的ChatGPT4o勉強完成了測試。

這項研究測評了四個大語言模型,分別是OpenAI的ChatGPT4和ChatGPT4o、Google的Gemini 1.0和1.5、以及Anthropic的Claude 3.5 Sonnet。我們知道,這些模型在語言生成和數據處理方面的能力是相當優秀的,但真正“猜想”和“理解”的能力上,它們與人類之間仍有一條很長的溝壑要填平。

AI模型認知能力測試
這項研究使用了斯特魯普測試作為認知能力的評估。在這個測試中,我們需要讀出一個詞的顏色,但這個詞本身卻是用另外一種顏色書寫出來,比如“紅”這個詞是用藍色寫出來的。在測試中,只有ChatGPT4o成功完成了這個任務,其他模型都表現得十分困惑。

這似乎證明了人類的思維方式和機器真的不是一回事,在處理復雜的認知任務時,AI模型明顯力不從心。我們還用AI進行了Navon圖形、偷餅干圖和Poppelreuter圖等經典認知能力測試。在這些測試中,AI模型同樣表現得十分糟糕。

以Navon圖形為例,我們看到這樣一個圖形,上面是一個由小個“漢字”組成的大“英文字母”,而大寫字母是H,它下面是一個由小個“英文字母”組成的大“漢字”,而大漢字是吃。在這樣的圖形中,人眼會識別出大字母H,因為它的視覺沖擊力更強,而AI模型則恰恰相反,它們更擅長分析小單位,所以它們會先識別出小個漢字,而后組合成“吃”,而后再進行大字的識別。

這種能力的不足,在視覺空間能力和執行功能任務的測試中表現得尤為明顯。在一項需要AI完成線路連接的任務中,AI模型不僅不能完成,而且還出現了“失憶”的情況。

比如一根線從1點出發,經過2、3、4、5、6、7、8、9、10,最終到達12點,如果將這些數字按順序連接起來就形成了一條完整的線路。然而當我們把這個任務交給AI時,它們能記住1到12這些數字,卻無法記住線路是從1到12,而是不斷地去掉中間數字,最終只留下1和12這兩個端點。

在時鐘繪制測試中,AI模型也沒有完成。人類只需看一眼,就能判斷出哪個時鐘是正確的,而AI模型則需要逐個分析每個數字和指針之間的位置關系,直到它們建立起完整的時鐘概念,這個過程耗時且效率低下。
AI技術應用前景
這樣的結果讓我們不得不猜想,AI技術到底適合什么樣的場景?我們曾經寄希望于它能夠取代人類,在醫療、法律、文學和藝術等領域完成我們的工作,但現實告訴我們,這樣的想法還是太天真了。

人類在這些領域有的是情感共鳴和同理心,而機器即便再聰明,也無法進行情感的溝通。人類醫生能夠憑借多年的經驗判斷出病人的情緒變化,即便這個變化微乎其微,但在醫生的眼里卻有著極大的意義。而AI即便分析出數據有異常,也無法理解情緒對疾病發展的影響。

這樣的局限性告訴我們,技術不能完全替代人類的智慧和情感需求。雖然我們對AI有著很高的期待,但它更多的是作為人類工作的輔助,提高我們的工作效率,而非簡單地取而代之。
結語
這篇讓我深刻認識到,雖然AI在某些領域展現了強大的能力,但在情感和同理心方面,它永遠無法與人類相提并論。我們需要理性看待AI的應用,利用它來輔助我們,而不是完全依賴它。你們覺得?歡迎在評論區分享你的看法,或者點個贊支持一下!





京公網安備 11011402013531號