![]()
這項由伊利諾伊大學香檳分校的薩繆爾·夏皮羅和蘇慕克·沙希達等研究團隊完成的開創性研究,發表于2025年9月的arXiv預印本平臺(論文編號:arXiv:2509.21043v2),首次系統性地探索了人工智能模型在創造性任務上的表現規律。有興趣深入了解的讀者可以通過該論文編號查詢完整研究內容。
說起人工智能的創造力,你可能會覺得這聽起來像科幻小說里的情節。但實際上,現在的AI系統已經在幫助科學家產生新的研究想法,設計新的產品,甚至創作藝術作品。不過,這些AI真的具備創造力嗎?它們的創造性能力是如何隨著模型規模的增大而變化的?這些正是這項研究試圖回答的核心問題。
愛因斯坦曾經說過,"組合性的游戲似乎是創造性思維的本質特征"。他指的是將已知的概念以新穎的方式組合起來,從而產生創新想法的過程。從印刷術的發明到達爾文的進化論,歷史上許多重大發現都源于這種"組合創造"——將看似無關的概念巧妙地聯系在一起。
當前的大型語言模型已經開始在科學發現中發揮作用,但研究人員發現了一個令人困惑的現象:這些AI模型能夠產生新穎的科學想法,但往往在確保這些想法的實際可行性方面表現不佳。這被稱為"構思執行鴻溝"——AI善于產生創意,但不善于判斷這些創意是否真的可行。
為了深入理解這一現象,研究團隊設計了一個全新的理論框架和測試方法,專門用來評估AI的組合創造能力。這個方法就像是給AI出了一道特殊的"連點游戲"——在一個由概念和關系構成的巨大網絡中,AI需要找到連接兩個概念的創新路徑,同時還要遵守一系列邏輯約束。
一、組合創造力:AI版本的"點子工廠"
要理解什么是組合創造力,可以把它想象成一個巨大的概念倉庫。在這個倉庫里,每個架子上都擺放著不同的概念,比如"電力"、"音樂"、"交通"等等。創造力就是從這些架子上取下看似不相關的概念,然后以前所未有的方式將它們組合起來。比如,將"電力"和"音樂"結合,可能會產生電子音樂的想法;將"電力"和"交通"結合,就可能催生電動汽車的概念。
在人類認知科學研究中,科學家們發現創造力強的人往往具有更豐富的"聯想層次"——他們能夠將相距很遠的概念聯系起來。就像一個善于烹飪的廚師,不僅知道常見的食材搭配,還能想出用巧克力配辣椒這樣令人驚艷的組合。
但AI的組合創造力與傳統的"組合泛化"能力有什么區別呢?組合泛化就像是按照已知的語法規則造句——如果你學會了"黑色"和"狗"這兩個詞,你就能理解"黑狗"這個組合。而組合創造力則更像是詩人的工作——它不僅要求能夠組合概念,還要求這種組合是新穎的、有用的,并且能夠產生令人驚喜的效果。
研究團隊發現,組合創造力具有幾個獨特的特征。首先,它是開放式的,沒有標準答案——就像問"如何設計一個更好的交通系統",可能有無數種創新的回答方式。其次,它既要求結構新穎性(創造出前所未見的形式),也要求語義新穎性(產生新的含義)。最重要的是,它需要同時考慮新穎性和實用性的程度,而不是簡單的對錯判斷。
二、構建AI創造力的"游戲規則"
為了科學地研究AI的創造力,研究團隊設計了一個精巧的測試框架,就像為AI創造力設計了一套"游戲規則"。這個游戲的場景是一個概念空間,可以想象成一張巨大的地圖,上面有成千上萬個概念點,這些點之間通過各種關系線連接。
在這個概念地圖上,每個概念都像一座城市,而連接它們的關系就像公路。這些公路不僅有方向,還有不同的"類型標簽"——有些可能是"科學關系",有些可能是"歷史關系",還有些可能是"功能關系"。AI的任務就是在這張地圖上找到從起點城市到終點城市的創新路徑。
但這不是一般的導航任務。研究團隊設置了兩種約束條件,就像給這場"概念旅行"制定了特殊規則。包含約束就像是"必經之路"——你的路徑必須經過某些特定類型的道路。排除約束則像是"禁行路段"——某些類型的道路是絕對不能走的。
這種設計非常巧妙,因為它模擬了現實世界中創造性思維的兩個核心要求。新穎性要求你找到的路徑要與眾不同,最好是別人從未走過的道路。實用性則要求你的路徑必須遵守邏輯約束,不能違反基本的規則。
為了量化新穎性,研究團隊采用了兩個指標:路徑長度和路徑的"意外程度"。較長的路徑往往意味著更大的概念跨度,而意外程度則通過路徑中每條關系的稀有程度來衡量——就像選擇人跡罕至的小徑比走大眾化的高速公路更有探索價值。
實用性的量化則相對直接:AI生成的路徑必須確實連接起點和終點,必須包含所有要求的關系類型,同時不能包含被禁止的關系類型。研究團隊還根據約束條件的數量定義了不同的"難度等級"——第一級是沒有任何約束的自由探索,而更高等級則有越來越多的限制條件。
最終的創造力評分就像是新穎性和實用性的"乘積"——只有同時具備新穎性和實用性的解決方案才能獲得高分。這反映了創造力的本質:既要有想象力,也要有可行性。
三、AI模型的"身材管理":深度與寬度的微妙平衡
研究團隊進行了一項大規模的實驗,就像是為AI模型做了一次全面的"體檢"。他們測試了從100萬參數到1億參數的各種規模的Transformer模型,系統性地調整模型的深度(層數)和寬度(每層的神經元數量),以找出什么樣的"身材比例"最有利于創造力的發揮。
這個過程就像是在探索建筑設計的最優方案。如果把AI模型比作一棟大樓,深度就是樓層數,寬度就是每層的面積。在相同的建筑材料(參數數量)限制下,是建造一棟高瘦的摩天大樓好,還是建造一棟矮胖的平房好?
實驗結果揭示了一個令人驚訝的發現:對于創造力而言,存在一個最優的深度和寬度平衡點。太淺的模型就像是思維深度不夠的人——雖然能記住很多概念,但缺乏深入分析和連接這些概念的能力。而太深的模型則像是過度思慮的人——雖然思維過程復雜,但反而可能在概念表征方面受到限制。
具體來說,在1億參數的模型中,8層左右的深度顯示出了最佳的創造力表現。而在寬度與深度的比例方面,最優的比例大約在200到300之間。這個發現對AI系統的設計具有重要指導意義——不是越深越好,也不是越寬越好,而是需要找到一個精妙的平衡點。
更有趣的是,這種最優平衡點在不同規模的模型中都保持了相對的一致性。無論是100萬參數的小模型還是1億參數的大模型,都呈現出類似的最優深度和寬度比例。這暗示著創造力可能有其內在的"架構規律",就像自然界中許多生物都遵循黃金分割比例一樣。
這個發現的深層含義是,創造力需要在兩種能力之間找到平衡:一是同時表征大量不同概念的能力(需要足夠的寬度),二是進行復雜推理和關聯的能力(需要適當的深度)。太寬而淺的模型雖然能記住很多概念,但缺乏深度思考;太窄而深的模型雖然推理能力強,但概念表征能力有限。只有在兩者之間找到恰當的平衡,才能實現最佳的創造性表現。
四、規模法則的"天花板":新穎性與實用性的永恒拉鋸戰
隨著AI模型規模的不斷增大,一個關鍵問題浮現出來:創造力是否會隨著模型變大而無限提升?研究團隊的發現揭示了一個既令人鼓舞又令人擔憂的現象。
從積極的角度來看,創造力確實隨著模型規模的增大而提升,這種提升遵循著一定的可預測規律。就像汽車的馬力增加會提升速度一樣,更大的模型確實顯示出了更強的創造能力。這為AI創造力的發展提供了樂觀的前景。
然而,研究團隊發現了一個更深層的問題:新穎性和實用性之間存在著一種根本性的權衡關系,這種權衡即使在模型規模增大時也持續存在。簡單來說,就是AI越想出新奇的點子,就越容易忽視這些點子的可行性;反之,如果過分注重可行性,產生的想法就可能缺乏新意。
這種現象就像是創意工作中的經典難題。一個極富想象力的藝術家可能會提出很多天馬行空的想法,但這些想法往往難以實現。而一個過分務實的工程師雖然提出的方案都很可行,但可能缺乏突破性的創新。
實驗數據清晰地顯示,當研究團隊增加任務的約束條件數量時,AI生成解決方案的新穎性會系統性地下降。更令人關注的是,這種趨勢在所有測試的模型規模中都保持一致——從100萬參數到1億參數,這種新穎性與實用性的權衡關系都沒有明顯改善。
這個發現對當前AI發展的含義是深遠的。它表明,僅僅通過增加模型參數可能無法根本解決創造力中的核心矛盾。就像單純增加汽車的馬力并不能自動解決燃油效率問題一樣,單純擴大模型規模也不能自動平衡新穎性和實用性。
五、錯誤模式的演變:從明顯錯誤到微妙缺陷
研究團隊對AI模型的錯誤類型進行了細致的分析,發現了一個有趣的演變模式。在較小的模型中,最常見的錯誤是"幻覺"——模型會生成根本不存在的概念連接,就像在地圖上畫出了實際并不存在的道路。這類錯誤比較容易識別,因為它們在表面上就是明顯錯誤的。
但隨著模型規模的增大,幻覺錯誤的比例急劇下降,取而代之的是一種更加微妙的錯誤類型:"無效路徑"錯誤。這類錯誤在表面上看起來是合理的——所有的概念和連接都是真實存在的,但整個推理路徑在邏輯上是有問題的。
這種錯誤類型的變化就像是從"寫錯字"的錯誤發展到"邏輯不通"的錯誤。前者容易發現和糾正,后者則需要更深層的理解才能識別。這意味著隨著AI模型變得更加強大,它們的錯誤也變得更加隱蔽和難以察覺。
這種演變模式對AI在創造性任務中的應用具有重要啟示。表面上看,大型模型似乎更加"聰明",因為它們很少犯明顯的錯誤。但實際上,它們的問題可能更加嚴重,因為微妙的邏輯錯誤往往比明顯的表面錯誤更難被發現和糾正。
六、破解"構思執行鴻溝"的密碼
這項研究為理解和解決AI在科學創意生成中遇到的"構思執行鴻溝"提供了新的視角。所謂構思執行鴻溝,就是AI能夠產生新穎的科學想法,但往往在確保這些想法實際可行方面表現不佳的現象。
研究團隊巧妙地將他們實驗中的約束條件與現實科學研究中的常見問題進行了對應。排除約束可以理解為防止不現實假設的機制——就像確保研究方案不依賴于尚未發明的技術。包含約束則可以理解為確保研究包含必要基準的要求——就像確保新藥測試必須包含對照組。
通過這種對應關系,研究團隊發現新穎性與實用性的權衡可能是構思執行鴻溝的根本原因。當AI努力產生新穎的想法時,它往往會忽視實際執行中的約束條件。反之,當它過分關注可行性時,產生的想法就缺乏突破性。
這種理解揭示了一個重要事實:構思執行鴻溝可能不僅僅是技術問題,而是創造性思維固有的挑戰。即使在人類科學家中,也經常出現理論豐富但實驗設計有缺陷的研究提案。
更重要的是,實驗結果表明這種權衡關系即使在大規模模型中也持續存在,這暗示著僅僅通過擴大模型規模可能無法完全解決構思執行鴻溝問題。這為未來AI創造力的發展指出了新的方向:可能需要在架構設計、訓練方法或推理機制方面尋求突破,而不是僅僅依賴規模擴展。
七、對未來AI發展的啟示
這項研究的發現對AI領域的未來發展具有多方面的啟示。首先,它表明在AI架構設計中存在最優的深度和寬度配置,這為在有限計算資源下最大化創造性能提供了指導。就像烹飪需要恰當的火候一樣,AI的創造力也需要恰當的架構"配方"。
其次,新穎性與實用性權衡的持續存在提醒我們,僅僅追求更大的模型規模可能不是提升AI創造力的唯一途徑。這就像單純增加汽車的馬力并不能解決所有交通問題一樣,AI的發展可能需要更多元化的策略。
研究團隊建議,未來的發展方向可能包括改變預訓練目標、采用推理時技術,以及探索新的架構創新。比如,多token預測而非單token預測可能有助于提升創造力。推理時的自我完善技術可能有助于在資源有限的情況下提升小模型的創造性能。而基于能量的Transformer等新架構可能為組合泛化和創造力提供更好的支持。
這些發現也對AI在實際應用中的部署策略產生影響。在需要高度創造性的任務中,可能需要專門設計的評估和過濾機制,以平衡生成想法的新穎性和可行性。同時,人類專家的參與可能仍然是確保AI創造性輸出質量的重要環節。
說到底,這項研究揭示了AI創造力的一些基本規律:架構設計中存在最優平衡點,規模擴展有其局限性,而新穎性與實用性的權衡是一個需要持續關注的根本挑戰。這些發現不僅推進了我們對AI創造力的科學理解,也為開發更有效的創造性AI系統提供了重要指導。就像了解了植物生長的規律才能更好地園藝一樣,理解了這些AI創造力的規律,我們才能更好地培育和應用人工智能的創造潛能。
Q&A
Q1:什么是組合創造力?它和普通的AI能力有什么區別?
A:組合創造力是指將已知概念以新穎方式組合產生創新想法的能力。與普通AI的組合泛化不同,它不僅要求能夠組合概念,還要求這種組合是新穎的、有用的,并且是開放式的(沒有標準答案)。就像AI不僅要會按語法造句,還要能寫出令人驚艷的詩歌。
Q2:為什么AI模型越大創造力不一定越強?存在什么限制?
A:研究發現AI創造力存在架構上的最優平衡點——太深或太淺的模型都不利于創造力發揮。更重要的是,新穎性和實用性之間存在根本權衡:AI越想出新奇想法就越容易忽視可行性。這種權衡即使在大模型中也持續存在,意味著僅靠增大規模無法完全解決創造力問題。
Q3:構思執行鴻溝是什么?為什么AI會出現這種問題?
A:構思執行鴻溝指AI能產生新穎科學想法但難以確保其實際可行性的現象。研究表明這源于新穎性與實用性的根本權衡——當AI追求創新時往往忽視約束條件,當它注重可行性時又缺乏突破性。這不只是技術問題,而是創造性思維的固有挑戰。





京公網安備 11011402013531號