李彥宏宣稱無幻覺，文心一言親測卻「打臉」？

IP屬地中國·北京 編輯：周琳新識研究所 時間：2024-11-14 08:20:21

李彥宏的“幻覺”，可能比AI大
引言：
11月12日，在百度世界2024大會上，李彥宏在主題為應用來了的演講中，公開對外表達了“過去24個月，AI行業的最大變化是什么？是大模型基本消除了幻覺”的看法，并且發布了檢索增強的文生圖技術（iRAG），稱其可“用于解決大模型在圖片生成上的幻覺問題，極大提升實用性”。
然而在體驗中，卻發現文心一言在文字與文生圖上消除/解決了幻覺，可能只是李彥宏的“幻覺”。
第一部分：李彥宏說大模型消除幻覺，文心一言復現卻漏洞百出？
作為在發布會上展示的技術，除了當場演示不翻車之外，最起碼要做到讓用戶可以復現。但李彥宏這次的現場演示，卻實在讓人懷疑他用的是不是提前預設好的東西。
在大會當場，李彥宏隆重推出了檢索增強的文生圖技術——iRAG。據介紹，該技術將百度搜索的億級圖片資源與基礎模型能力相結合，能生成極為逼真的圖片。李彥宏強調，iRAG技術效果遠超原生文生圖系統，成功消除了機器味，并顯著提升了AI生成圖片的實用性。
那么是怎么個消除了機器味、證明生成的圖片是真實的呢？李彥宏拿出了天壇作為案例。
首先，李彥宏使用某開源模型生成了一張北京天壇的圖片，然后告訴大家，這張天壇圖片是錯誤的，因為天壇只有三層而該開源模型生成的圖片中天壇有四層，并告訴大家，這就是圖像等多模態模型幻覺的最真實情況。
而在指出這個開源模型的錯誤后，李彥宏也展示了文心一言利用iRAG技術生成的愛因斯坦在天壇的圖片，以展現百度iRAG技術消除多模態模型幻覺的實力。
圖源：小熊財經
這一切看似很流暢，使用了iRAG技術生成的圖片也的確不再“臆想”，但在我們復現的該圖片的時候，卻出現了問題。
在同樣的要求之下，文心大模型生成的“天壇”卻不像李彥宏當場展示的一般，而是給出了有四層的“天壇”圖片，這不剛好也算是犯了李彥宏指出同行們的錯誤嗎？
圖源：文心一言生成
在層數之外，這張生成的“天壇”照片在下面欄桿的數量上也與真實的天壇對不上號，真實的天壇共有三層欄桿，而生成的圖片則有四層甚至五層欄桿出現。
圖源：文心一言生成
或許有人覺得我這樣的要求有點“吹毛求疵”，但在五次同樣的要求之下，文心一言有三次給出了“打臉”李彥宏的輸出結果，實在令人有些汗顏。
而在另外一張現場展示的“大眾攬巡汽車飛躍長城”圖片上，文心一言也給出了同展示相去甚遠的答案。
圖源：文心一言生成
左上圖為真實的大眾攬巡，左下為大會展示的大眾攬巡，而右圖則為再次生成的大眾攬巡，李彥宏展示的圖片與真實的攬巡的確相差不遠，但為何再次生成的圖片，連大眾的logo都被“幻覺”掉了呢？
在圖片之外，李彥宏表示文字層面的RAG已經做得很好，基本讓大模型消除了幻覺，但作為日常深度使用各家大模型的用戶來說，起碼在豆包、Kimi、文心一言這些大眾使用頻率最高的大模型應用上，是遠遠達不到李彥宏所說的程度的。
（事實上多倫多不是加拿大的首都）
而從技術上來說，RAG（檢索增強生成）本質上是一種基于信息檢索方法緩解LLM幻覺的技術，就是無法徹底杜絕模型的幻覺問題，這似乎就是Transformer架構本身的問題，例如在處理代碼編寫和數學等需要推理的任務時，RAG的表現就不那么理想了，而如此武斷地給出RAG基本讓大模型消除了幻覺的論斷，真的沒有問題嗎？
第二部分：李彥宏，才是被“忽悠瘸”的那個？
如果說像這樣的事件是偶然的話那還可以理解，但從AI時代開始李彥宏與百度的多次發聲與動作來看，也不能排除李彥宏被下面做產品、做業務甚至所宣傳的人“忽悠”出幻覺的可能。
作為最先發布大模型的企業，百度的文心一言在去年年初可謂是風光無兩，就差把中國大模型之光的title安在腦袋上了。但一年半之后的現在，占盡先發優勢的文小言的MAU只有豆包的四分之一，同文心一言年齡相仿的月之暗面的產品Kimi也快要趕上。
數據公眾號@AI產品榜
而要追究個中原因，雖然的確脫不開近幾個月豆包有抖音“獨家宣傳權”、Kimi大肆燒錢的因素，但歸根結底，還是由于百度在大模型上的進展并沒有保持住領先優勢。
在今年4月Create 2024百度AI開發者大會上，百度帶來了包括智能體開發工具AgentBuilder、AI原生應用開發工具AppBuilder、各種尺寸的模型定制工具ModelBuilder在內的三個AI開發工具，其中的智能體開發工具AgentBuilder似乎有很大的超越性，也被百度寄予了厚望。
但是，在創建智能體的能力上，百度的超越性并沒有宣稱的那么大。
以豆包為例，發現智能體、創建AI智能體也早已對C端用戶放開，并在真實的使用中并不輸給百度AgentBuilder開發的智能體。
圖源：豆包
李彥宏對于大模型技術和趨勢的一些發言和判斷，也經常會讓人覺得與現實發展并不相符。
同樣在今年4月Create 2024百度AI開發者大會上，李彥宏曾表示：“開源模型會越來越落后”。他給出的原因是，大家以前用開源覺得便宜，其實在大模型場景下，開源是最貴的，所以開源模型會越來越落后。
開源模型成本高就一定會落后？顯然并不是直接的因果關系。更何況在技術領域，幾乎每一個開發者都信奉開源的力量，認為開源驅動了絕大多數技術創新，那為什么到了李彥宏這里就出現了另一種答案呢？
而再往前，早在去年百度發布文心一言時，李彥宏就稱“百度文心一言和OpenAI差距可能在兩個月左右”，但王小川直言“這可能是平行宇宙里的李彥宏說的，不是我們這個世界里的”。至于彼時百度文心一言和ChatGPT的差距究竟有多大，當前文心一言的使用體驗有沒有追上GPT-4o，其實明眼人都能看得出來。
再加上一直以來重發布、輕落地，重宣傳、輕體驗的大模型應用功能迭代，很難讓人不懷疑，以技術出身的Robin，是真的跟隨百度進入了AI時代，還是在潛移默化之間被筑起的信息繭房慢慢同化，成為了那些產品開發人員、業務人員乃至公關人員的“發聲筒”了？
參考資料：
李彥宏是不是被騙了？，數字進化島；
大模型「幻覺」，看這一篇就夠了 | 哈工大華為出品，量子位；
（全文）李彥宏最新演講：文心大模型每天調用量達15億，數據觀；
李彥宏宣布：百度iRAG技術讓AI生成圖片更逼真，大模型幻覺問題已解，小熊財經；
作者：楊啟隆
編輯：丁力

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

時間的“相對論”：為什么我們總覺得時間越跑越快？『心靈加油站』（271）

VC為何關心比鄰星之旅？滴水湖畔“仰望星空”，上海這樣求解未來

《電腦愛好者》雜志公眾號注銷、官網無法訪問，創刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產了？

王力宏伴舞機器人高難度后空翻后穩穩落地，馬斯克點贊！

長城歐拉出奇招：“一車多動力”打破單點競爭

全站最新

時間的“相對論”：為什么我們總覺得時間越跑越快？『心靈加油站』（271）

VC為何關心比鄰星之旅？滴水湖畔“仰望星空”，上海這樣求解未來

《電腦愛好者》雜志公眾號注銷、官網無法訪問，創刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產了？

熱門推薦

時間的“相對論”：為什么我們總覺得時間越跑越快？『心靈加油站』（271）

VC為何關心比鄰星之旅？滴水湖畔“仰望星空”，上海這樣求解未來

《電腦愛好者》雜志公眾號注銷、官網無法訪問，創刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產了？

王力宏伴舞機器人高難度后空翻后穩穩落地，馬斯克點贊！

長城歐拉出奇招：“一車多動力”打破單點競爭

上饒農商行被罰240萬，上饒銀行被罰170萬

2025年流星雨迎來謝幕演出小熊座流星雨22日極大

雷軍轉發！小米汽車又獲獎再引發輿論安全追問

鴻蒙正奔騰！解碼中國自主操作系統的生態成熟好用的極限突圍

我國成功發射通信技術試驗衛星二十三號

寶馬3系全球產量突破1800萬輛，50年傳奇仍在繼續

降息，突發！集體拉升，近8萬人爆倉！

給AI一雙眼睛：XR眼鏡正在重塑下一代智能終端

摩爾線程技術路線圖全面公開！刷新國產GPU推理天花板，新架構能效飆10倍

首頁

資訊

財經號

智能車

專題

電商資訊

人物資訊

滾動資訊

首頁

新科技

新金融

新零售

智能車

房地產

科技探索

人物資訊

網絡游戲

人工智能

李彥宏宣稱無幻覺，文心一言親測卻「打臉」？

首頁

資訊

財經號

智能車

專題

電商資訊

人物資訊

滾動資訊

李彥宏宣稱無幻覺，文心一言親測卻 「打臉」？

同類資訊

李彥宏宣稱無幻覺，文心一言親測卻「打臉」？