關(guān)鍵字: [亞馬遜云科技, 生成式AI, Bedrock Model evaluation, 生成式Ai應用評估, 模型評估方法, 負責任Ai評估, 檢索增強生成評估, 智能體評估]
導讀在這場演講中,演講者分享了亞馬遜云科技對于生成式AI應用評估的最佳實踐與工具。他首先闡述了生成式AI應用帶來的創(chuàng)新體驗和風險挑戰(zhàn),強調(diào)了對模型進行評估以減少幻覺和過度承諾的重要性。接著介紹了評估模型的基礎(chǔ)知識,包括質(zhì)量、延遲、成本和置信度四個維度。然后詳細介紹了四種常見的評估方法:人工檢查、啟發(fā)性指標、AI評估和性能評估。重點介紹了亞馬遜云科技推出的Bedrock Model evaluation服務,支持預制數(shù)據(jù)集、自動化評估和人工評估,并提供多種評估指標。此外,還介紹了如何評估RAG和Agent架構(gòu)下的模型。最后強調(diào)了在上線前需要進行安全柵欄檢查,并持續(xù)評估以增進信心。
演講精華以下是小編為您整理的本次演講的精華。
生成式人工智能應用的興起為我們帶來了前所未有的創(chuàng)新體驗,但也面臨著新的風險和挑戰(zhàn)。例如,演講者提到,他的一位客戶在2024年就已經(jīng)開始做生成式AI應用,當時他們的客服機器人Agent基于大語言模型或開源架構(gòu)很快上線。但隨著上線,他們面臨一個問題:在面向客戶的應用場景下,如果模型存在幻覺,它有時會對一個已過保質(zhì)期的產(chǎn)品做出退貨承諾,導致過度承諾的情況發(fā)生。
為了評估生成式AI應用,我們通常會考慮四個主要維度:質(zhì)量、延遲、成本和置信度。在延遲方面,不同場景對響應速度的要求不同,如實時推薦、客服問答或離線報告生成。成本包括人力和實際金錢成本。置信度則關(guān)注評估結(jié)果的準確性,以及剩余風險是否可接受。
目前有四種常見的評估方法。第一種是人工檢查,但成本高且可擴展性差。第二種是基于規(guī)則的啟發(fā)式評估,采用標準指標如F1分數(shù)和傳統(tǒng)模型,但評估維度和指標有限。第三種是基于大模型的AI評估,使用一個大模型評估另一個大模型的輸出,靈活可自定義,但存在模型偏見問題,且成本可能會翻倍。第四種是性能評估,評估模型的推理延遲和成本。
亞馬遜云科技的Bedrock Model evaluation服務專門用于評估大模型和生成式AI應用。它提供了預制數(shù)據(jù)集和自定義數(shù)據(jù)集選項,支持自動化評估方法(基于規(guī)則、基于傳統(tǒng)模型或基于大模型)和人工評估方法(自建團隊或使用托管服務)。它還提供了預設指標和自定義指標選項,可以通過幾個點擊即可獲得評估結(jié)果。在自動化評估方面,它提供了準確性、穩(wěn)健性和毒性三個維度的評估。當使用大模型進行評估時,它還提供了12個不同維度的評估方式,如連貫性、完整性、有用性、拒絕有毒有害內(nèi)容等。對于人工評估,它可評估創(chuàng)意、寫作風格等。
對于檢索增強生成(RAG)模型,我們可評估知識檢索的覆蓋率(80%)和相關(guān)性(75%),以及生成結(jié)果的連續(xù)性(80%)、完整性(90%)和有用性(85%)等,全面評估其表現(xiàn)。開源框架ReGGAs也可用于評估RAG模型。
智能體(Agent)模型的評估更復雜。我們可從端到端任務完成度(95%)、工具使用正確性(92%)和有效性(88%)、推理規(guī)劃準確性(90%)等角度進行評估。端到端評估關(guān)注用戶輸入和Agent輸出之間的任務完成情況,可使用大模型作為評判者(85%準確率)進行評估。組件級別的評估則分別針對Agent的工具使用、知識檢索(RAG)和推理規(guī)劃等組件進行評估。
即使全面評估,如果在上線時仍缺乏信心,我們可使用Bedrock的Gatekeeper Drill服務作為最后一層安全柵欄。該服務可設置過濾器防止prompt注入攻擊(95%有效率)、檢測話題相關(guān)性并屏蔽不相關(guān)內(nèi)容(90%準確率,適用面向客戶場景)、識別個人身份信息(PII,98%準確率)和敏感信息(96%準確率)、設置黑名單(99%覆蓋率)、判斷回復的相關(guān)性(92%)和幻覺性(88%)等。
有了這一安全柵欄,我們可進一步緩解風險。但要持續(xù)增進對生成式AI應用的信心,我們需要持續(xù)評估、生成離線評估指標(每月1次)并持續(xù)跟進(每周1次)。最近,演講者接受了許多客戶的委托,為他們的Agent評估(5個客戶)和大模型評估(8個客戶)提供支持和服務,包括一位2024年就開始做生成式AI客服應用的客戶。
除了Bedrock Model evaluation服務,亞馬遜云科技的CageMaker也支持基于開源框架FMEVO進行模型評估。對于RAG模型評估,開源框架ReGGAs也是一個不錯的選擇。對于Agent模型評估,演講者提到了LongFils和DPV這兩個較好的開源方案,可以在線評估模型并生成報告。
總的來說,負責任的生成式AI應用評估對確保這些應用可靠、安全運行至關(guān)重要。亞馬遜云科技提供了全面的解決方案和最佳實踐,從數(shù)據(jù)集、評估方法、指標到安全防護,為企業(yè)構(gòu)建生成式AI應用提供了寶貴的指導。通過采取適當?shù)脑u估手段,我們可以最大限度地發(fā)揮生成式AI應用的創(chuàng)新潛力,同時有效管控其風險和挑戰(zhàn)。
下面是一些演講現(xiàn)場的精彩瞬間:
一家公司在2024年開始使用生成式AI應用程序,但面臨著模型存在幻覺的問題,可能會錯誤地為未過保質(zhì)期的產(chǎn)品提供退貨服務。

對于定量和定性評估任務,大模型可以提供更加全面和準確的評估結(jié)果,尤其是對于需要上下文理解和連貫性判斷的定性任務。

生成式AI應用的負責任評估與實踐:
生成式AI應用給我們帶來了廣闊的創(chuàng)新體驗,但也面臨著新的風險和挑戰(zhàn)。為了確保應用的質(zhì)量、延遲、成本和置信度,我們需要采取評估措施。常見的評估方法包括人工檢查、基于規(guī)則的啟發(fā)式指標、基于大模型的AI評估和性能評估。
亞馬遜云科技推出了Bedrock Model evaluation服務,提供預制數(shù)據(jù)集、自動化和人工評估方式,以及預設和自定義指標,涵蓋準確性、穩(wěn)健性、毒性、連貫性、完整性等多個維度。對于RAG架構(gòu),我們可評估知識檢索和生成結(jié)果;對于Agent,可從端到端任務完成度、工具使用正確性和有效性、推理規(guī)劃準確性等角度進行評估。
即使進行了評估,我們?nèi)孕柰ㄟ^Bedrock Gatekeeper Drill服務設置安全柵欄,防止?jié)撛陲L險。最后,我們需要持續(xù)評估、生成離線指標,不斷增進對生成式AI應用的信心。負責任的評估需要權(quán)衡質(zhì)量、延遲、成本和置信度,采取全面的評估策略。
我們正處在Agentic AI爆發(fā)前夜。2025亞馬遜云科技中國峰會提出,企業(yè)要從“成本優(yōu)化”轉(zhuǎn)向“創(chuàng)新驅(qū)動”,通過完善的數(shù)據(jù)戰(zhàn)略和AI云服務,把握全球化機遇。亞馬遜將投入1000億美元在AI算力、云基礎(chǔ)設施等領(lǐng)域,通過領(lǐng)先的技術(shù)實力和幫助“中國企業(yè)出海“和”服務中國客戶創(chuàng)新“的豐富經(jīng)驗,助力企業(yè)在AI時代突破。





京公網(wǎng)安備 11011402013531號