谷歌推出基準(zhǔn)測(cè)試檢驗(yàn)AI是否“靠譜”：Gemini 3 Pro準(zhǔn)確率僅69%

IP屬地中國(guó)·北京 IT之家 時(shí)間：2025-12-13 16:14:10

IT之家 12 月 13 日消息，據(jù)《商業(yè)內(nèi)幕》今日?qǐng)?bào)道，谷歌 DeepMind 本周發(fā)布了 FACTS 基準(zhǔn)測(cè)試，用來(lái)檢驗(yàn) AI 在事實(shí)準(zhǔn)確性方面到底靠不靠譜。
這一測(cè)試從四個(gè)維度評(píng)估模型能力，包括是否能憑自身知識(shí)準(zhǔn)確回答事實(shí)問(wèn)題、能否正確使用網(wǎng)絡(luò)搜索、是否能在長(zhǎng)文檔中扎實(shí)引用信息，以及對(duì)圖像內(nèi)容的理解水平。在參測(cè)模型中，谷歌的 Gemini 3 Pro 表現(xiàn)最好，準(zhǔn)確率為 69%，其他主流模型則明顯落后。
這一成績(jī)對(duì)企業(yè)同樣是個(gè)警鐘。雖然 AI 在生成速度和語(yǔ)言流暢度上優(yōu)勢(shì)明顯，但在事實(shí)可靠性方面仍然遠(yuǎn)低于人類(lèi)標(biāo)準(zhǔn)，特別是在需要專(zhuān)業(yè)細(xì)分知識(shí)、復(fù)雜推理或嚴(yán)格基于原始材料的場(chǎng)景中。
在金融、醫(yī)療和法律等高風(fēng)險(xiǎn)行業(yè)，即便細(xì)小的事實(shí)錯(cuò)誤，也可能放大成嚴(yán)重后果。報(bào)道以《商業(yè)內(nèi)幕》員工梅莉亞?拉塞爾為例，其本周梳理了律師事務(wù)所如何應(yīng)對(duì) AI 逐漸被當(dāng)作法律事實(shí)來(lái)源的現(xiàn)實(shí)，結(jié)果并不樂(lè)觀。她提到，有律師事務(wù)所的員工使用 ChatGPT 起草法律文件，結(jié)果文件中充斥虛假判例，最終律所直接解雇了該員工。
報(bào)道指出，谷歌希望通過(guò)明確模型出錯(cuò)的位置和方式，加快 AI 的改進(jìn)速度。但眼下可以得出的結(jié)論非常清楚，AI 確實(shí)在進(jìn)步，然而仍有大約三分之一的時(shí)間會(huì)犯錯(cuò)。
參考

免責(zé)聲明：本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類(lèi)資訊

80多年前，他們?cè)谥貞c為全國(guó)戰(zhàn)時(shí)科研機(jī)構(gòu)養(yǎng)小白鼠

全國(guó)首個(gè)高海拔巖洞式算力艙智算中心——雅礱江兩河口算電融合示范項(xiàng)目投運(yùn)

支付寶FluidMarkdown鴻蒙版開(kāi)源，專(zhuān)為AI流式交互設(shè)計(jì)

民聲現(xiàn)場(chǎng)·市民講述：“無(wú)貨源”模式做跨境電商，竟是騙局！

4.98萬(wàn)就能買(mǎi)機(jī)器人通用基座？一機(jī)三態(tài)，多場(chǎng)景驗(yàn)證，配VLA大腦

煥新補(bǔ)貼成效顯現(xiàn)，11月江蘇新能源汽車(chē)零售額同比增長(zhǎng)26.2%

全站最新

80多年前，他們?cè)谥貞c為全國(guó)戰(zhàn)時(shí)科研機(jī)構(gòu)養(yǎng)小白鼠

全國(guó)首個(gè)高海拔巖洞式算力艙智算中心——雅礱江兩河口算電融合示范項(xiàng)目投運(yùn)

支付寶FluidMarkdown鴻蒙版開(kāi)源，專(zhuān)為AI流式交互設(shè)計(jì)

民聲現(xiàn)場(chǎng)·市民講述：“無(wú)貨源”模式做跨境電商，竟是騙局！

熱門(mén)推薦

“上參下”腳步逐漸加快，多地農(nóng)信改革邁出實(shí)質(zhì)性一步

“上參下”腳步逐漸加快，多地農(nóng)信改革邁出實(shí)質(zhì)性一步

李禮輝：必須加快制度創(chuàng)新，確定金融智能體的法律地位

珠海國(guó)資五年輸血45億未果，傅氏姐弟接盤(pán)“保殼”，*ST寶鷹5800萬(wàn)押寶子公司能否續(xù)命？

百融云創(chuàng)發(fā)布RaaS戰(zhàn)略及“結(jié)果云”平臺(tái) 定義AI硅基智能新范式

聯(lián)動(dòng)科技：新產(chǎn)品QT-9800SoC測(cè)試系統(tǒng)已完成實(shí)驗(yàn)室驗(yàn)證用于測(cè)試系統(tǒng)級(jí)芯片（SoC）

80多年前，他們?cè)谥貞c為全國(guó)戰(zhàn)時(shí)科研機(jī)構(gòu)養(yǎng)小白鼠

優(yōu)必選與天鵝到家簽署戰(zhàn)略合作協(xié)議

中科曙光與商湯科技、大曉機(jī)器人合作簽約

全國(guó)首個(gè)高海拔巖洞式算力艙智算中心——雅礱江兩河口算電融合示范項(xiàng)目投運(yùn)

支付寶FluidMarkdown鴻蒙版開(kāi)源，專(zhuān)為AI流式交互設(shè)計(jì)

民聲現(xiàn)場(chǎng)·市民講述：“無(wú)貨源”模式做跨境電商，竟是騙局！

4.98萬(wàn)就能買(mǎi)機(jī)器人通用基座？一機(jī)三態(tài)，多場(chǎng)景驗(yàn)證，配VLA大腦

煥新補(bǔ)貼成效顯現(xiàn)，11月江蘇新能源汽車(chē)零售額同比增長(zhǎng)26.2%

高通雙架構(gòu)戰(zhàn)略曝光：Oryon管當(dāng)下，RISC-V賭未來(lái)