文:李然
正在上海舉行的世界人工智能大會WAIC,就像是對所有中國大模型公司的一個年中考試。大家都鉚足勁,秀出了自己最新的進展。
2023百模大戰” 各家都在刷榜比拼大模型的性能參數,在AI 2.0的“應用元年” ,今年各家AI公司都在基于自己對于AI應用和大模型技術理解的“非共識”,希望走出一條自己的破局之道。
在年初的大模型價格戰,各家公司把API的價格徹底卷下來之后,似乎大模型市場就很少出現同時針對某一個單點因素不計代價的發力的情況。
縱觀今年WAIC國內各家大模型公司的新品發布會,比拼模型性能強調參數的內容占比也越來越少,更多的是將自家模型和產品的特點,生態搭建等差異化因素展現出來,希望在應用層趕快找到落地的思路。
而依然在快速迭代模型性能的公司,也不僅僅是在測評集上下功夫,也更多的基于自己在技術路徑上的特點和積累的優勢,力圖推出讓人眼前一亮的技術和產品。
在5月份,OpenAI和谷歌前后腳放出了基于自身原生多模態大模型打造的最新模型產品——GPT-4o和“Project Astro”。它們都是利用自己模型的原生多模態能力,讓用戶能用聲音和攝像頭直接和模型自然地,低延遲地交互,希望能夠重塑人機交互的新范式。
而商湯也成為了國內首家跟進的大模型公司,基于他們的原生多模態基礎模型,快速地推出了“日日新5o”。商湯將它定義為國內首個所見即所得模型,希望能帶來和AI實時的流式多模態交互的新模式。
從人類發明計算機以來,人機交互“平臺級”的革命,最終都跑出了載入歷史的產品和公司:人機圖形化交互界面的革命,讓微軟成為了世界上最大的科技公司之一,讓Windows成為了PC的靈魂;而iPhone的出現,開啟了移動互聯網時代,讓蘋果成為了最受用戶歡迎,也是最賺錢的科技公司。
這也許是為什么OpenAI和谷歌都不約而同地選擇將大模型技術朝著多模態方向上持續迭代背后的思考和邏輯。
商湯的發布會上發了很多東西,也講了很多內容,有智能駕駛端到端的更新和突破,有可控視頻生成的最新產品更新,有醫療行業落地的實例,有出海的舉措。但也許日日新5o的發布,會成為那種在5年甚至10年之后,還會不斷被人們回憶起,開啟了一個新時代的時刻。
硬剛GPT-4o的流式多模態大模型
工作人員剛開始僅是和 “日日新5o”打個招呼,它就自動識別出工作人員脖子佩戴的胸卡帶子上的字眼,判斷出現場就是世界人工智能大會會場,并表示在這個地方可以“好好學習”。

現場拍攝
接下來工作人員拿了一只可愛小狗玩偶,“日日新5o”準確描述了小狗的外貌、表情以及重要穿戴——一個帶著印有商湯科技logo白帽子,很給主場人排面。

現場拍攝
再上些難度,隨便翻開一本書的任何一頁,“日日新5o”都能自動介紹,不是簡單的OCR識別文字,而是識別圖文給出好理解的總結,這一切在瞬間即可完成,真正做到實時交互。

現場拍攝
畫功” ,隨手畫了一只簡筆畫小兔子,“日日新5o”直呼畫得可愛,而后工作人員又畫了一個微笑表情,它從這個平靜的表情中捕捉到了笑意,工作人員又改了一筆把嘴巴畫大增添了舌頭,“日日新5o”看到后立馬說道這表情開心多了。
而在商湯的展臺,我們也親自體驗了日日新5o的能力,有參觀的用戶覺得商湯準備好的幾個固定的玩偶和書本可能有提前安排的嫌疑,就隨手拿出自己帶的一瓶礦泉水讓模型去識別。模型絲毫不費力地就識別出這是一瓶喝了一半的農夫山泉。

現場拍攝
之后,觀眾又隨手翻開旁邊的書本,讓模型通過攝像機去歸納內容,日日新5o也都能對答如流。
這些功能的實現,都是基于商湯訓練的原生多模態大模型的能力。它能實時快速地處理多模態數據,從而讓用戶和AI的交互變得無比絲滑。商湯也第一次用中文界定了GPT-4o這樣的交互方式——流式原生多模態交互模型。
WAIC鎮館之寶——Vimi視頻生成模型
而除了這個流式多模態大模型的展示之外,商湯還帶來了他們視頻生成的最新進展——Vimi。

官方提供
Vimi是基于日日新5.5能力打造的首個可控人物視頻生成大模型。只需一張任意風格照片,普通用戶也能生成長達1分鐘的視頻。
“人物可控”一直是大模型生成的難題,就算強如Sora都難以精準控制動作,且連續性也不是太好,人物的五官和細節都很難避免畸變。
但Vimi不同,它能精確控制人物面部表情和半身像的自然姿態。此外,還能自動生成與人物匹配的頭發、服裝和背景變化,視頻時長可達分鐘級別。
官方放出的演示,一張自己照片馬上變成冰雪女王。

官方提供
官方更是用Vimi將圖靈,香農等計算機發展史上的大咖都復活起來,而且隨著人物的運動,五官特征都得以保留的很好。
性能大幅升級,端云協同將大模型的成本徹底打下來
而商湯除了新點出的這兩點科技樹,日日新5.5在兩個月的時間內又再次迭代 ,在性能上又有了接近30%的提升。在各大測試集上,日日新5.5重新占據了非常領先的位置。

官方提供
短時間內商湯模型能力取得如此大的提升,最主要是源于他們對訓練數據進行更新。根據商湯的說法,他們使用超過 10TB tokens訓練數據,包括大量人工合成數據,數據構造從基本的文本知識轉向合成思維鏈數據。使得模型在數學、推理、長文本、編程等多個維度都有大幅提升。
而除了利用全新的合成數據對模型進行“增效”,商湯在“降本”層面上也取得了突破。模型采用混合端云協同架構,可最大限度發揮云邊端協同,從而大幅降低了推理的成本,能夠讓用戶以更低的成本獲得更好的大模型使用體驗。
商湯日日新端側模型5.5 Lite同樣也在性能指標的各維度上做到了全面升級。速度更快,效果層面在多個維度均全面升級,支持在智能手機、平板電腦、PC、車艙一體機等設備部署應用。
基于手機旗艦平臺,5.5 Lite首次安裝的耗時僅為0.19秒,相較于之前的版本減少了40%。它的推理速度提高了15%,達到每秒90.2個漢字的處理速度。
此外,商湯還推出了端側模型矩陣,其中包括商量Mini寫作助手、總結助手和百科助手等專門定制的模型。這些專項模型在相應的場景下具有更優異的性能,能夠滿足客戶復雜業務場景的需求,同時也能夠提供不同的專項模型供客戶選擇或定制。
而對于用戶來說,端側模型的使用成本,更是做到了幾乎免費。

官方提供





京公網安備 11011402013531號