9月11日-14日,由鈦媒體與ITValue共同主辦的2024 ITValue Summit 數字價值年會在三亞舉行。此次峰會主題為“Ready For AI”,交流經驗教訓,交叉行業思考,推動創新交易,以創新場景為基礎,共同探索AI驅動下數字經濟時代的全新機遇,共同打造一場數字經濟時代的AI創新探索盛宴。
大會上,亞馬遜云科技大中華區產品部技術專家團隊總監王曉野發表了“GenAI驅動場景創新,釋放業務價值”的主題演講。
此外,數據基礎非常重要,王曉野提到,大模型系統先天就具有幻覺現象,無論是模型也好,還是與模型一起構建的系統也好,從數據的視角看,系統永遠是“垃圾入垃圾出”,或許讓企業真正發揮業務價值的答案,就在數據里。
最后他表示,企業在選擇大模型合作伙伴時,需要有兩個方面的能力,一方面是基礎技術能力,云廠商從整個算力到數據能力,以及人員支持上能與企業共創。
“從云廠商的視角看,此時此刻是技術變革的轉折點,這是前所未有的重塑業務的最佳時機。“他說。

以下為王曉野演講內容,經鈦媒體整理:
近些年來云計算爆發,越來越多的企業擁抱云計算,推動了從數據到算力,乃至于云計算整體的發展。過去的模型被生成式模型逐漸替代,它在很多的場景下比小模型有更好的表現。
2024年IDC預測全球40%的企業會在AI上投資,到了2025年是68.6%。現在各位有沒有這樣的感覺,AI是不是到了像之前的元宇宙一樣,走到向下行或者這一波浪潮結束的階段。
給出答案之前,先來看看我們的合作伙伴法拉利。法拉利在使用AI技術定制化汽車的顏色,以及賦能幾千名維修人員,同時生成式AI也廣泛加速汽車模擬場景的AI應用。
回到剛才提的問題,如果說2023年大家處于FOMO(Fear of Missing Out)的狀態,追著我們問,什么是大模型,大模型能做什么,我們能在什么場景用。到了2024年,客戶跟我們談得最多的是實際的問題,這個模型后還能不能再便宜一點,能不能用其他的模型替換。這一年AI話題雖然被討論了很多,但還只是一個開始,相信下一個時代,由于技術的改變,各行各業會更積極地擁抱AI。
我們很早以前就推薦給廣大企業,擁抱生成式AI的路徑。即從業務場景開始,再準備數據,必經的過程是企業對自己的數據進行定制,最重要的是后面的工程化和應用集成,并服務到業務中。這個過程不是一蹴而就,需要持續地迭代。直到今天這個過程完全沒有變。
大模型的關鍵,在于匹配場景
我想強調的一件事情,還是從場景出發,企業自身的場景,而且反復迭代。今天所有的大模型,我們都認為它是三頭六臂,但一定要從企業最想要的功能出發去選擇,這個三頭六臂有的練的是鐵頭功,另一個練的是麒麟臂,一定要匹配您最需要的模型。
以亞馬遜云科技自身來講,我們自身應用AI的場景是不一樣的,我們推出了生成式AI快速總結客戶評價;如果想給一個小姑娘買圣誕禮物,我們推出專業的AI購物助手;在藥房的場景下,可以從非結構化的處方信息快速提取用藥信息,幫助藥房撿藥,告訴病人如何使用藥品。每個場景背后都不是相同的模型。
雖然有些場景看似眼熟,但細分關注的信息和需要的能力不一樣。比如翻譯,文章翻譯和實時翻譯,推理的速度要求不一樣,在時效性要求高的場景下,企業要關注的是模型是否能以比較低的成本高速響應需求,滿足場景。
在智能運營場景,對于用戶聲音、客戶評論情感的分析,以及對應詞條背后邏輯關聯的梳理。SHULEX致力于賦能品牌出海,對于用戶的流程有10%以上的效果提升。
在品牌宣傳營銷場景,我們看重的是模型的個性化、豐富程度。例如賽狐ERP,利用大模型生成文案,同時可以控制生成關鍵詞,不僅實現文案生成效率的提升,還植入亞馬遜云科技檢索的關鍵詞。
對于風控場景,我們看到的是模型對于內容的理解,以及對于審核標準的執行,今天多模態的模型,除了文字、語言,還有類似游戲聊天窗口發的圖像。連續多模態語意的理解,這是過去模型做得不太好的地方,目前沐瞳科技實現了90%以上的辱罵識別率。
Ready for AI,數據先行
在模型之外,數據的重要性不言而喻。
無論是模型也好,還是跟模型一起構建的系統也好,從數據的視角看,這個系統來說永遠是“垃圾入垃圾出”,無論是訓練模型還是通過知識庫,喂給系統什么樣的數據出來就是什么樣的效果。
今天生成式模型原理上存在幻覺,或許讓企業真正發揮業務價值的答案,就在數據里。
從Data for AI看,企業額外投入的是這幾個層面:第一,迭代模型視角,有沒有足夠的能力為模型準備優秀的數據,有沒有建立數據的閉環;第二,在整個模型應用的過程中,數據如何高效提供給業務,比如知識庫可以檢索公開數據,調用海量的知識。假設今天搜索場景高并發的情況下,能不能提供在線服務和線下海量交互生成的數據循環回來,為模型服務的數據能力是否具備。這些場景都是企業需要投入和思考的。
如何應用數據定制企業自身的獨立特點?我們可以做PE(prompt Engineering),可以做RAG,可以微調。很多人走了認知上的彎路,這不是我們技能上出了問題,是整個行業都在摸索、共創、探索。
剛才提到數據服務AI,如果沒有做好元數據管理,企業有什么數據不知道怎么用,那就是一個挑戰,也可以說是新的機會。過去我們只能基于表格或者數據庫整理數據,通過人工梳理的元數據,今天有非常多的數據用到模型的能力,重新定義元數據管理。
舉個例子,在汽車自動駕駛領域,駕駛數據實際上只有1%真正可以用來做模型訓練,或者是對模型訓練的結果有用。多模態對場景的理解是非常好的機會。全球已經有非常多的數據廠商都走向這個方向,包括做數據集成,他們已經推出生成式管理。Data for AI這件事在數據管理上又是一個新的機會。
回到數據能力,數據能力好意味著什么?有幾個例子,第一個是WPS,基于過去PPT生成模板,在短短的幾個月內幫他們實現兩個場景,一個是文本的潤色翻譯,二是PPT自動生成,大模型完成大綱生成和詳細描述,背后的模板生成都是常年積累下來的數據。
當企業構建一個應用時,我建議大家加強數據技術的能力,同時要關注選擇什么樣的項目。不知道如何立項時,從自己的客戶,無論是內部、外部,還有自己的場景出發,背后還有非常重要的一些事情,人員的技能。
對于生成式AI,要求的技能完全不一樣,包括工程化的技能、生成式的圖片,如何管理隱私數據的保護,這些事情過去都是要做的,只是生成式AI的要求更高,對企業需要投入的資金,以及能力、精力提出了前所未有的標準。
快速總結成功企業的經驗,一是要針對業務場景了解模型的能力,而不是本著不變的模型不斷地試不同的場景。第二是數據的基礎非常重要,第三,如果說選擇合作伙伴,需要有兩個方面的能力,一方面是基礎技術能力,云廠商從整個算力到數據能力,以及人員支持上與企業共創。同時,我相信我們的企業在未來的投入的比例上,數據、人才和背后整個公司對于AI數量的投入占到未來企業精力50%以上。
從云廠商的視角看,此時此刻是技術變革的轉折點,這是前所未有的重塑業務的最佳時機。借用法拉力的話結束今天的演講,最偉大的法拉利永遠是沒有設計出來、制造出來的下一款。
以上是我的分享,謝謝!





京公網安備 11011402013531號