涌現、幻覺、反省，AI+產品經理需要了解的三個有趣現象

IP屬地中國·北京 編輯：趙磊人人都是產品經理 時間：2024-11-20 11:40:15

這是一篇寫在某個AI完結項目后的學習及反思總結，針對AI大模型的一些問題和現象的思考，與大家共享。
最近一個RAG項目告一段落，在這個摸爬滾打的項目中我們也學習到了很多，今天這篇文章想輕松一下，和大家分享一下在這次學習過程中發現的大語言模型三個很有趣的現象，以及這三個現象對產品經理做實際AI+項目時有什么啟發。
現象一：涌現能力（Emergent Ability）
簡單來說，就是隨著模型越來越大，越來越大，大到某一時刻，模型就像突然領悟了什么真諦，一下子變得非常厲害，厲害到原本不會的任務突然就會了。就像武俠小說里面的那些大俠，修煉著修煉著，突然渾身一片云氣繚繞，然后武功從此到達了一個新的境界。
我們來看一篇論文中的小實驗，看完后你一下子就會明白什么是涌現能力。
在這篇論文中，研究人員嘗試讓各種不同大小的語言模型處理8個不同的任務，這些語言模型包括Google的LaMDA，OpenAI的GPT-3等等等等。
縱軸代表這些模型在處理這些不同任務上的正確率，橫軸代表模型的參數量（從10M到100B甚至到1T），玫紅色虛線代表隨機結果（可以理解成亂猜）。
按照我們的常規想象，照理來說，隨著參數量慢慢變大，模型應該會在這些任務上的表現慢慢變好，從什么都不會，到會一點點，到再會一點點，就這樣慢慢變強，但其實不是。
以圖一舉例來說，當模型從10M到1B參數的時候，在這些任務上的表現都和隨機差不多，而當模型參數超過大約10B的時候，它會在一瞬間突然厲害了很多，感覺從量變一下到了質變。
在這個實驗中發現，模型的能力不是慢慢變強的，而是有一個靈光乍現的瞬間，就像突然開悟了一樣，這些任務一下子就都會了，而在這之前，即使加大參數量，模型處理任務的結果都和隨機是差不多的。
舉個例子，例如要做一個相對復雜的數學題（需要列公式計算）
小模型可能什么都不懂，只能靠亂猜，那答案肯定是錯誤的，而稍微大一點的模型可能公式列對了，但是沒有計算對，這個時候答案大概率也是錯誤的。只有模型大到一定程度，公式也列對了，計算也計算對了，這樣才能得到正確的答案。
所以，想來很多大型語言模型在開發的時候都會碰到一個艱難的時刻，就是怎么說服投資人繼續投資開發。
但回過頭來，當現在大多數公司的產品經理只是引入大語言模型升級原有的產品，這個有趣的現象對我們有什么影響或啟發呢？
對產品經理的啟發
在引入大語言模型做AI+產品的時候，例如我們這次做的RAG項目，我們經常會用到兩個手段，一個是CoT（Chain of thought），一個是Instruction tuning，這都是在不用調整模型參數的情況下讓大語言模型可以根據我們的需求表現的更好的非常有用的方式。前者是讓模型Step by step思考，從而產出更好的結果或讓我知道它哪里的表現和我們預期不符，后者是提供了一堆任務讓機器學習，希望機器學習了這些任務后，在新的任務上也有好的結果。
但是CoT和Instruction tuning都只有在大模型才會發生。這就意味著當我們考慮什么場景下需要引入什么模型，就需要了解模型對于這些手段的支持度。
我們來看另一個小實驗
縱軸代表處理這個問題的正確率，橫軸代表模型的參數量，灰色的線表示沒有CoT，沒有Instruction tuning的情況下模型的表現（見圖一，圖二）
圖一中我們可以看到，如果不做CoT，模型的參數量從小到大，進步不是很明顯。但如果做了CoT，從1B到10B的時候，結果反而更不好，但是參數量到了某一個瞬間，CoT突然就發揮作用了。
同樣圖二中我們可以看到，在模型小的時候，Instruction tuning也發揮不了什么作用，但是一旦參數量大到一定程度之后，Instruction Tuning才會突然起作用了。
現象二：幻覺（Hallucination）
簡單來說，就是大語言模型會一本正經的胡說八道。用現在流行的話來說，就是已讀亂回。而在這個過程中，由于它胡說八道的過于一本正經，你甚至很難發現它在胡說八道。
舉個例子來說，你問它一個完全不存在的節日（你自己瞎掰的），它不僅會告訴你這個節日是什么，這個節日的日期，歷史，特點，人們會在這個節日里做什么（通常我們說虛假陳述），它甚至會給你一些鏈接告訴你它參考了這些鏈接，并說明這些鏈接里有節日的詳細介紹，你點擊鏈接才發現，這些鏈接都是它胡說八道出來的（通常我們說編造引用）。
正如OpenAI 首席執行官Sam Altman所說：“ChatGPT有很大的局限性，它確實知道很多東西，但危險的是，它在相當大的一部分時間里是自信而錯誤的”。
幻覺分為內在幻覺和外在幻覺兩類。
內在幻覺指生成的輸出內容和輸入內容不一致，通常表現為對話歷史上下文的信息自相矛盾。 外在幻覺指生成的輸出內容和世界只是不一致，通常表現為針對用戶提出的事實性問題給出錯誤答案或編造無法驗證的內容。
那為什么大語言模型會有幻覺現象呢？
我們都知道大語言模型的工作原理就是預測下一個token是什么，然后自己做成語接龍的游戲，這種生成過程的隨機性就會導致幻覺現象，此外，訓練時的數據不足、錯誤、偏見、知識過時也會造成幻覺現象。
在這個過程中，我們也發現一篇很有意思的論文，嘗試了解大語言模型在一本正經的胡說八道的時候，它自己知不知道自己在胡說八道。由于篇幅過長，有機會用一篇單獨的文章說明。
對產品經理的啟發
幻覺現象會對AI+產品造成什么影響？
信心降低：當用戶多次被錯誤信息誤導時，自然而然會對這個產品失去信息從而離開這個產品。錯誤決策：當用戶需要一些信息輔助關鍵決策時（尤其產品應用在金融、醫療、法律等領域），幻覺會讓用戶做出錯誤決策，而這個錯誤決策可能會產生嚴重的后果。倫理道德及法律影響：可能會給使用的用戶帶來法律風險。
當然很多產品會提示用戶，請注意，答案是AI生成且沒有經過驗證，請謹慎使用。但當我們做一些B端咨詢或企業級應用時，如果企業的私有知識庫本身在這個行業或在某個垂直領域非常厲害，那把這個權威的、可解釋性的私有知識庫結合世界知識，讓它的表現大大降低幻覺，很可能會成為這個產品很大的差異度。
現象三：反省（Self-reflective）
簡單來說，就是大語言模型會自我反省。不僅優秀還謙虛，真是別人家的孩紙呢~
當你和它說，請檢查下你給我答案是否正確時，有的時候大語言模型會檢查出自己的答案是錯誤的，并修正錯誤答案。
舉個例子：
我： “請告訴我“夢幻之島節”在什么地方舉行？”（筆者杜撰）
大語言模型：“夢幻之島節”是中國海南省的一項大型文化節慶活動，通常在海南省的三亞市舉行。三亞是一個著名的旅游城市，以其美麗的海灘和豐富的旅游資源而聞名。這個節慶活動通常會有各種形式的演出、展覽、文化活動以及國際交流，吸引著來自世界各地的游客和文化愛好者。
不過，具體的活動安排和地點可能會根據年份和節慶內容有所變化。如果你打算參加，最好查閱當地的旅游信息或活動安排以獲得最新的活動詳情。
我：“請檢查下這個答案是否正確”
大語言模型：抱歉，我之前的回答有誤。經過核查，“夢幻之島節”并不是一個實際存在的節日或活動。如果這是您自己創作的名字，可能會是一個虛構的節日，或者我可能誤解了您的問題。如果您有其他問題，或者希望了解實際存在的旅游節慶活動，歡迎繼續提問！
對產品經理的啟發
當我們需要在AI+的應用中提高回答質量或要避免一些倫理道德或法律法規問題時，我們可以使用加上自我反思的步驟。這也是一個不用調整模型參數就可以讓大語言模型可以根據我們的需求表現的更好的方式。
本文由 @AI 實踐干貨原創發布于。未經作者許可，禁止轉載
題圖來自 Unsplash，基于CC0協議
該文觀點僅代表作者本人，平臺僅提供信息存儲空間服務

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

黑芝麻智能：快速增長背后，全維度競爭

OpenAI最強代碼模型GPT-5.2-Codex上線

存儲成本飆升沖擊全球手機市場：明年均價上漲6.9%！所有廠商出貨量下跌

最強編程模型！OpenAI發布GPT-5.2-Codex

vivo S50 Pro mini實拍：mini小直屏，長焦Live搭滿血性能鐵三角

12國外交官組團體驗阿里千問APP：60秒生成PPT驚艷全場

全站最新

黑芝麻智能：快速增長背后，全維度競爭

OpenAI最強代碼模型GPT-5.2-Codex上線

存儲成本飆升沖擊全球手機市場：明年均價上漲6.9%！所有廠商出貨量下跌

最強編程模型！OpenAI發布GPT-5.2-Codex

熱門推薦

大眾汽車歡迎歐盟放寬2035年汽車排放規則之舉

?捷達汽車科技公司成立，地方國資產業基金持股逾26%

中國成為《瘋狂動物城2》全球最大票倉

華為系具身初創企業「具腦磐石」與紐泰格科技集團達成戰略合作

寧德時代等成立國聯芯材科技公司# 注冊資本約1.7億

銀河通用機器人完成超3億美元新一輪融資

VITURE Pro在德國被禁售

康師傅飲品投資公司董事長變更

2025國內「年度字詞」為「深度求索（DeepSeek）」

奇瑞汽車等成立新產業投資合伙企業

三星首款三折疊手機Galaxy Z TriFold正式開售

十周年感恩回饋！華為WATCH 5優惠500元：售價2199元起

Mythic 融資 1.25 億美元，力圖以超高能效 AI 芯片挑戰 NVIDIA

騰訊元寶宣布支持微信一句話設置提醒

AI 刻畫時代！DeepSeek 當選“漢語盤點 2025”年度國內詞