李彥宏的“幻覺”,可能比AI大

引言:
11月12日,在百度世界2024大會上,李彥宏在主題為應用來了的演講中,公開對外表達了“過去24個月,AI行業的最大變化是什么?是大模型基本消除了幻覺”的看法,并且發布了檢索增強的文生圖技術(iRAG),稱其可“用于解決大模型在圖片生成上的幻覺問題,極大提升實用性”。
然而在體驗中,卻發現文心一言在文字與文生圖上消除/解決了幻覺,可能只是李彥宏的“幻覺”。
第一部分:李彥宏說大模型消除幻覺,文心一言復現卻漏洞百出?
作為在發布會上展示的技術,除了當場演示不翻車之外,最起碼要做到讓用戶可以復現。但李彥宏這次的現場演示,卻實在讓人懷疑他用的是不是提前預設好的東西。
在大會當場,李彥宏隆重推出了檢索增強的文生圖技術——iRAG。據介紹,該技術將百度搜索的億級圖片資源與基礎模型能力相結合,能生成極為逼真的圖片。李彥宏強調,iRAG技術效果遠超原生文生圖系統,成功消除了機器味,并顯著提升了AI生成圖片的實用性。
那么是怎么個消除了機器味、證明生成的圖片是真實的呢?李彥宏拿出了天壇作為案例。
首先,李彥宏使用某開源模型生成了一張北京天壇的圖片,然后告訴大家,這張天壇圖片是錯誤的,因為天壇只有三層而該開源模型生成的圖片中天壇有四層,并告訴大家,這就是圖像等多模態模型幻覺的最真實情況。
而在指出這個開源模型的錯誤后,李彥宏也展示了文心一言利用iRAG技術生成的愛因斯坦在天壇的圖片,以展現百度iRAG技術消除多模態模型幻覺的實力。

圖源:小熊財經
這一切看似很流暢,使用了iRAG技術生成的圖片也的確不再“臆想”,但在我們復現的該圖片的時候,卻出現了問題。
在同樣的要求之下,文心大模型生成的“天壇”卻不像李彥宏當場展示的一般,而是給出了有四層的“天壇”圖片,這不剛好也算是犯了李彥宏指出同行們的錯誤嗎?

圖源:文心一言生成
在層數之外,這張生成的“天壇”照片在下面欄桿的數量上也與真實的天壇對不上號,真實的天壇共有三層欄桿,而生成的圖片則有四層甚至五層欄桿出現。

圖源:文心一言生成
或許有人覺得我這樣的要求有點“吹毛求疵”,但在五次同樣的要求之下,文心一言有三次給出了“打臉”李彥宏的輸出結果,實在令人有些汗顏。
而在另外一張現場展示的“大眾攬巡汽車飛躍長城”圖片上,文心一言也給出了同展示相去甚遠的答案。

圖源:文心一言生成
左上圖為真實的大眾攬巡,左下為大會展示的大眾攬巡,而右圖則為再次生成的大眾攬巡,李彥宏展示的圖片與真實的攬巡的確相差不遠,但為何再次生成的圖片,連大眾的logo都被“幻覺”掉了呢?
在圖片之外,李彥宏表示文字層面的RAG已經做得很好,基本讓大模型消除了幻覺,但作為日常深度使用各家大模型的用戶來說,起碼在豆包、Kimi、文心一言這些大眾使用頻率最高的大模型應用上,是遠遠達不到李彥宏所說的程度的。

(事實上多倫多不是加拿大的首都)
而從技術上來說,RAG(檢索增強生成)本質上是一種基于信息檢索方法緩解LLM幻覺的技術,就是無法徹底杜絕模型的幻覺問題,這似乎就是Transformer架構本身的問題,例如在處理代碼編寫和數學等需要推理的任務時,RAG的表現就不那么理想了,而如此武斷地給出RAG基本讓大模型消除了幻覺的論斷,真的沒有問題嗎?
第二部分:李彥宏,才是被“忽悠瘸”的那個?
如果說像這樣的事件是偶然的話那還可以理解,但從AI時代開始李彥宏與百度的多次發聲與動作來看,也不能排除李彥宏被下面做產品、做業務甚至所宣傳的人“忽悠”出幻覺的可能。
作為最先發布大模型的企業,百度的文心一言在去年年初可謂是風光無兩,就差把中國大模型之光的title安在腦袋上了。但一年半之后的現在,占盡先發優勢的文小言的MAU只有豆包的四分之一,同文心一言年齡相仿的月之暗面的產品Kimi也快要趕上。

數據公眾號@AI產品榜
而要追究個中原因,雖然的確脫不開近幾個月豆包有抖音“獨家宣傳權”、Kimi大肆燒錢的因素,但歸根結底,還是由于百度在大模型上的進展并沒有保持住領先優勢。
在今年4月Create 2024百度AI開發者大會上,百度帶來了包括智能體開發工具AgentBuilder、AI原生應用開發工具AppBuilder、各種尺寸的模型定制工具ModelBuilder在內的三個AI開發工具,其中的智能體開發工具AgentBuilder似乎有很大的超越性,也被百度寄予了厚望。
但是,在創建智能體的能力上,百度的超越性并沒有宣稱的那么大。
以豆包為例,發現智能體、創建AI智能體也早已對C端用戶放開,并在真實的使用中并不輸給百度AgentBuilder開發的智能體。

圖源:豆包
李彥宏對于大模型技術和趨勢的一些發言和判斷,也經常會讓人覺得與現實發展并不相符。
同樣在今年4月Create 2024百度AI開發者大會上,李彥宏曾表示:“開源模型會越來越落后”。他給出的原因是,大家以前用開源覺得便宜,其實在大模型場景下,開源是最貴的,所以開源模型會越來越落后。
開源模型成本高就一定會落后?顯然并不是直接的因果關系。更何況在技術領域,幾乎每一個開發者都信奉開源的力量,認為開源驅動了絕大多數技術創新,那為什么到了李彥宏這里就出現了另一種答案呢?
而再往前,早在去年百度發布文心一言時,李彥宏就稱“百度文心一言和OpenAI差距可能在兩個月左右”,但王小川直言“這可能是平行宇宙里的李彥宏說的,不是我們這個世界里的”。至于彼時百度文心一言和ChatGPT的差距究竟有多大,當前文心一言的使用體驗有沒有追上GPT-4o,其實明眼人都能看得出來。
再加上一直以來重發布、輕落地,重宣傳、輕體驗的大模型應用功能迭代,很難讓人不懷疑,以技術出身的Robin,是真的跟隨百度進入了AI時代,還是在潛移默化之間被筑起的信息繭房慢慢同化,成為了那些產品開發人員、業務人員乃至公關人員的“發聲筒”了?
參考資料:
李彥宏是不是被騙了?,數字進化島;
大模型「幻覺」,看這一篇就夠了 | 哈工大華為出品,量子位;
(全文)李彥宏最新演講:文心大模型每天調用量達15億,數據觀;
李彥宏宣布:百度iRAG技術讓AI生成圖片更逼真,大模型幻覺問題已解,小熊財經;
作者:楊啟隆
編輯:丁力





京公網安備 11011402013531號