IT之家 12 月 13 日消息,據(jù)《商業(yè)內(nèi)幕》今日?qǐng)?bào)道,谷歌 DeepMind 本周發(fā)布了 FACTS 基準(zhǔn)測(cè)試,用來(lái)檢驗(yàn) AI 在事實(shí)準(zhǔn)確性方面到底靠不靠譜。
這一測(cè)試從四個(gè)維度評(píng)估模型能力,包括是否能憑自身知識(shí)準(zhǔn)確回答事實(shí)問(wèn)題、能否正確使用網(wǎng)絡(luò)搜索、是否能在長(zhǎng)文檔中扎實(shí)引用信息,以及對(duì)圖像內(nèi)容的理解水平。在參測(cè)模型中,谷歌的 Gemini 3 Pro 表現(xiàn)最好,準(zhǔn)確率為 69%,其他主流模型則明顯落后。
這一成績(jī)對(duì)企業(yè)同樣是個(gè)警鐘。雖然 AI 在生成速度和語(yǔ)言流暢度上優(yōu)勢(shì)明顯,但在事實(shí)可靠性方面仍然遠(yuǎn)低于人類(lèi)標(biāo)準(zhǔn),特別是在需要專(zhuān)業(yè)細(xì)分知識(shí)、復(fù)雜推理或嚴(yán)格基于原始材料的場(chǎng)景中。
在金融、醫(yī)療和法律等高風(fēng)險(xiǎn)行業(yè),即便細(xì)小的事實(shí)錯(cuò)誤,也可能放大成嚴(yán)重后果。報(bào)道以《商業(yè)內(nèi)幕》員工梅莉亞?拉塞爾為例,其本周梳理了律師事務(wù)所如何應(yīng)對(duì) AI 逐漸被當(dāng)作法律事實(shí)來(lái)源的現(xiàn)實(shí),結(jié)果并不樂(lè)觀。她提到,有律師事務(wù)所的員工使用 ChatGPT 起草法律文件,結(jié)果文件中充斥虛假判例,最終律所直接解雇了該員工。
報(bào)道指出,谷歌希望通過(guò)明確模型出錯(cuò)的位置和方式,加快 AI 的改進(jìn)速度。但眼下可以得出的結(jié)論非常清楚,AI 確實(shí)在進(jìn)步,然而仍有大約三分之一的時(shí)間會(huì)犯錯(cuò)。
參考





京公網(wǎng)安備 11011402013531號(hào)