今天分享的是:大模型專(zhuān)題:2025年大模型智能體開(kāi)發(fā)平臺(tái)技術(shù)能力測(cè)試研究報(bào)告
報(bào)告共計(jì):21頁(yè)
《大模型專(zhuān)題:2025年大模型智能體開(kāi)發(fā)平臺(tái)技術(shù)能力測(cè)試研究報(bào)告》對(duì)阿里云百煉、騰訊云智能體開(kāi)發(fā)平臺(tái)、扣子、百度智能云千帆四個(gè)典型平臺(tái)的技術(shù)能力進(jìn)行了測(cè)試,圍繞RAG能力、工作流能力、Agent能力三個(gè)核心維度展開(kāi)。RAG能力測(cè)試涵蓋文本問(wèn)答、結(jié)構(gòu)化數(shù)據(jù)問(wèn)答、圖文問(wèn)答,各平臺(tái)在文本處理上表現(xiàn)優(yōu)異,單文檔及多文檔問(wèn)答準(zhǔn)確率較高,但拒答與澄清處理存在差異,騰訊云對(duì)知識(shí)庫(kù)外問(wèn)題實(shí)現(xiàn)100%拒答;結(jié)構(gòu)化數(shù)據(jù)問(wèn)答中,百度智能云千帆在復(fù)雜查詢場(chǎng)景表現(xiàn)穩(wěn)定,多表關(guān)聯(lián)查詢準(zhǔn)確率較高;圖文問(wèn)答中,阿里云百煉、騰訊云及扣子圖片識(shí)別能力較強(qiáng),但配圖輸出率分化。工作流能力以訂單修改為核心場(chǎng)景,測(cè)試參數(shù)提取、異常回退等,各平臺(tái)端到端準(zhǔn)確率在61.5%-69.2%,騰訊云意圖識(shí)別準(zhǔn)確率達(dá)93.3%,參數(shù)提取是主要差異點(diǎn),整體具備基礎(chǔ)可用性但需優(yōu)化。Agent能力測(cè)試工具調(diào)用,各平臺(tái)單工具調(diào)用完成率較高(83%-92%),多工具協(xié)同及提示詞調(diào)用有提升空間,騰訊云表現(xiàn)較均衡,存在流程斷點(diǎn)、技術(shù)穩(wěn)健性不足等問(wèn)題。總體而言,平臺(tái)基礎(chǔ)能力趨同但路徑分化,未來(lái)需在場(chǎng)景深度適配、技術(shù)鏈厚度構(gòu)建、生態(tài)廣度拓展上持續(xù)發(fā)力,以實(shí)現(xiàn)從實(shí)驗(yàn)性應(yīng)用向生產(chǎn)級(jí)交付跨越。
以下為報(bào)告節(jié)選內(nèi)容





京公網(wǎng)安備 11011402013531號(hào)