前言
從在自然的平面上拓畫,到在電腦屏幕上用AI生成無窮無盡的圖像洪流。圖像,通過我們的主體感受,塑造著我們的世界意識,也是我們與世界愛欲交流的重要頻道。
只是,在今天這個“技術圖像的宇宙”(弗魯塞爾所言)中,不斷增殖的圖像,是否正在以前所未有的方式,不斷形塑我們本已支離破碎的世界意識,修正岌岌可危的生存環境?更多的圖像,究竟是讓我們生活得更加豐饒,還是更加貧瘠?我們是否還能如同過去一樣,通過鏡子和影子——這些人類最早認識圖像和自我的方式,確認自己在世界上的存在?
與此同時,在這一波以大語言模型為突破的AI圖像的技術浪潮中,占據四千多年文化統治地位的線性文字首次成為圖像的先聲,而不是像自然經驗那樣,讓圖像先于文字進入我們的視野,心靈和頭腦。直觀的領會和無需解釋的世界早已消散,語言的腳手架密密麻麻地爬滿圖像殿堂,遮蔽了我們原本應有的圖像想象力。這種能力的喪失,最終意味著什么?
所以,在今天的環境里,以本體論的方式追問“AI繪畫(生圖)是什么?”“AI能否替代人類繪畫?” 或者“AI繪畫的藝術價值幾何?”并非最為急迫的問題。本文試圖從語言問題進入,來討論從文生圖的邏輯出發的圖像。在第二部分,我們考察AI生圖的技術鏈路與攝影術在生成方式和方法上的類似之處,進而探討機械藝術和技術圖像,如何令我們承擔了更多喪失主體性的痛苦。最后,本文試圖通過AI中的萬物風格遷移,進入藝術史的舞臺來重新認識AI圖像這位“強力的入侵者”。
咒語
一個盲人和朋友在餐廳吃飯,朋友幫他點了一杯牛奶。他問朋友,牛奶是什么?朋友說,牛奶是一種白色的液體。盲人又問:白色是什么?朋友說,白色是一種顏色,就像天鵝的顏色一樣。盲人繼續問:那么,天鵝是什么?朋友說:天鵝是一種脖子彎曲的鳥兒。盲人還問:彎曲是什么?朋友生氣了,抬起胳膊說:你摸摸我的胳膊,這就是彎曲。
于是,盲人仔細摸了摸朋友的胳膊,高興地說:現在,我終于知道牛奶是什么了!
我們不妨從這個小故事來思考AI的“文生圖”(text-image)功能。在這個故事里,AI被類比為一個不具備感官能力的盲人。因此,當盲人需要理解“白色”這種在經驗世界無需解釋、一目了然的事,卻只能通過一連串以語言為媒介的比喻、象征和邏輯推導。盲人最終認識到,“白色”作為概念的存在可以和其他概念等價交換。但由于缺乏直觀經驗,他得出了一個荒謬的結論。
那么,現實生活中的AI是如何能夠正確地“看”到世界的呢?
AI知名學者、斯坦福大學教授李飛飛在《我看見的世界》一書中寫道:最初使用imageNet做計算機視覺訓練的方法,是用一個有明確文字標簽的廣闊圖像數據集(超過一千萬張)訓練機器,把圖像(pixel data)數據輸入神經網絡,讓標簽(text category)作為監督信號,機器則開始學習圖像中哪些特征對應哪些類別,從而建立圖像“特征-類別”標簽的數學映射關系。
從一開始,機器就和故事中的盲人一樣,不具備感官能力,它沒有真正地“看”見任何東西。對它的訓練,主要集中在讓它理解圖像和語言的關系,以及讓它能較好地完成文字圖像對齊(text-image alignment),如此一來就能讓它表現得像是“看”懂了圖像。
而我們今天所使用的大部分AI圖像創作模型,無論是Stable Diffusion, 還是Midjourney (下稱MJ),Google Veo,chatgpt 4-o 等等,它們雖然都各自發展出了高度復雜、跨模態、深層的圖像生成系統,但在方法論上,遵循的都是imageNet所奠定的語言-圖像的基本邏輯。
所以,這也就不奇怪,為什么所有AI生圖的基本前提,必須是一個文本輸入框。這不是什么無中生有的神奇魔法,而恰恰是由于AI不具備真正意義上“看”的器官所致。我們都知道,一段關于畫的說明文字,不等于這幅畫。而AI卻試圖用栩栩如生的結果說服我們,這兩者是一回事。
在要求MJ生成的上世紀80年代家庭相冊中的照片中,我們能夠看到,它選取了“家庭”“80年代”和“家庭相冊”幾個語義清晰的提示詞進行圖像合成,同時,類似GPT-4或其他Transformer架構模型,它們對更長的token輸入有了更強的“上下文一致性”維持能力,會在某些高頻語義搭配中“補全”一些未被指令明確要求的細節,比如,將翻拍膠片相片的反光,也自動涵括在數據映射集中,進行高度的擬合,給我們造成一種逼真的歷史感。但這與我們希望它“理解”相片的歷史環境,形成判斷和印象,進一步明白相片中人物的關系和感情進行創作,卻是完全不相干的兩碼事。
![]()
80年代家庭相冊中的照片,由Midjourney生成
原本“純粹落在語言之外的東西”,如今也必須要走語言所規定的道路——prompt(提示詞)成為所有想象力的起始和開端,它曾一度被翻譯為“咒語”,這是一個非常有趣的譯法。它無意中點出,機器模型對我們來說就是一只不透明的神諭盒,我們無需知曉其運作原理,只需對其膜拜祈咒,便可以得到想要的結果。文字從能指符號,變成了帶有前現代巫術特征的東西;而圖像,卻在咒語的束縛下,丟失自己的想象、直觀與混沌。
那么,咒語究竟要多精確,才能復現出我們頭腦中的印象,我們的記憶,和我們所期待的圖像呢?
為了驗證這個問題,我用諾貝爾文學獎獲得者埃爾諾的書籍《相片之用》做了一個AI再創作的實驗。
埃爾諾的寫作,本身就被稱為“照相機風格”般的文本,特別是在特殊的、非常私人化的《相片之用》一書中,埃爾諾先是和她的情人布魯諾,共同挑選了一些他們拍下的日常“快照”,然后在互不交流的情況下,分別對這些照片做出文字性的描述。這是兩個人類,用文學意義上質量最高的文字,對一系列圖像做出的極為細致的描述。作家用這個方法,構筑了一段關于癌癥、愛情和生命歷程的故事。
那么,AI能夠再次通過這些文字,還原出他們曾經經歷過的場景嗎?我把埃爾諾如同圖像咒語般的文字,原封不動地給了MJ。
埃爾諾的原文如下:
進門處由淺色大塊地磚鋪成的整條走廊上到處散落著衣服和鞋。前景處,右側是件紅色套衫——或襯衣——和一件黑色無袖短套衫,它們看上去像是在被扯掉的同時還翻了過去。好似一尊袒胸露肩、被砍去了雙臂的半身像。無袖短套衫上的白色標簽很顯眼。更遠處是蜷縮成團的藍色牛仔褲,上面扣著條黑色皮帶。牛仔褲左側是紅色外衣的紅色內襯,像粗麻布拖把一樣攤開著。上面放著一條帶有藍色格紋的男士短襯褲和一件白色文胸,文胸的肩帶朝著牛仔褲伸去。后方是一只倒向一側的男士長筒靴,旁邊是一只縮成團的藍色襪子。一雙黑色的薄底淺口皮鞋立在那里,兩只鞋彼此之間離得很遠,鞋的朝向擺成個直角。更遠處,套衫或裙子構成的一團黑色從暖氣片下方露了出來。另一側,沿著墻邊的是一小團無法辨認的黑白色衣物。畫面最深處可以看到一個衣帽架,還有衣架上掛著的風衣下擺。閃光燈照亮了整個場景,使地磚和暖氣片顯得愈加亮白,也使側放著的那只皮鞋閃著光澤。在從一扇門的門框處拍攝的、同一場景的另一張照片上,我們可以看到另一只男鞋和另一只襪子,獨自留在了樓梯的臺階前。
MJ 遵循提示詞生成的照片:
![]()
以埃爾諾的文字為提示詞,通過Midjourney生成的圖片
![]()
埃爾諾書中拍下的照片
事實上,我和所有嘗試用AI生圖的人一樣,一遍又一遍地調整Variety(多樣性) 和 Weirdness(怪異度)(這兩個都是MJ為了增加圖像風格多樣性和離散程度而設計的用戶滑塊),以期獲得我滿意的圖片。但是,我們不難發現,無論如何調整參數,試圖通過精確的文字獲得精確的圖像,是注定失敗和不可能的。甚至,提示詞越精確,得到的結果越糟糕。
AI圖像無法逃脫咒語的限定,而AI目前處理“非秩序場景”的方法,要么總是顯得模板化、安全和整齊(鞋子總是擺放得太整齊,成對出現,不會像真實生活那樣隨機),要么它就像一個不知道停手的瘋狂畫家,從像素畫到像素,開始堆砌色塊,圖像出現輪廓喪失和顏色泥化(衣物失去了原本應有的結構和形狀)等問題。它無法把“有組織的雜亂”表現得像真實世界那樣可以理解——這不是通過調整參數就能解決的問題,而是目前擴散模型和token化機制的結構化限制。歸根到底,AI生圖的本領建立在統計學的基礎上。從本質上來說,是機器在語義連貫性和空間秩序上,努力模仿人類直觀地從生活經驗中獲得的印象。
![]()
阿米戈酒店223號房間(Midjourney生成的圖片)
埃爾諾的文字不僅精確描寫了物的形象,還在行文之間埋藏象征、比喻和尖銳的情感指向,這些都無法在AI生成的相片中得到準確的傳達。
延伸開來說,在這個實驗中,另一個和攝影倫理相關的問題是——機器生成的,是“應該存在而實際上不存在”的圖像。但真實的相片,則永遠指向一個具體的事件和情境,也就是羅蘭·巴特(Roland Barthes)所說的“?a a été”(That has been) ——這曾經存在。埃爾諾寫下的文字,對應著他們曾經共同經歷過,在癌癥中擁抱生命,激情地活著的歷程。相片,就如同法庭上的呈堂證供,提供著一種不容辯駁的、曾經在場的真實性。
![]()
阿米戈酒店223號房間(照片)
讓我們再次回到那個問題:無論AI如何說服我們,一張關于圖片的說明,就等于這張圖片,這都是不成立和不可能的。
當然,一定會有人提出,除了text-img選項,大部分AI生圖模型,不是都幾乎同一時間,貼心地提供了圖生圖(image-to-image)的選項嗎?那么,我們能夠把它看作是擺脫語言牢籠的AI創作嗎?我們能夠認為,語義引導的結構在這里不存在嗎?事實并非如此,這個工作流中的前一個圖像,只能被看作另一組圖像形式的提示詞,而后一個圖像,則是基于已有圖像的潛在( latent) 結構進行再建模或修正的結果。
圖生圖是對文生圖模式的補充,甚至我們還可以把它增加至聲音+文字+圖像的更多模態引用,它似乎把我們緩慢地拖離語言中心主義,但就其形態和目的而言,它依然是從像素到像素的存在。在這里,沒有真正的世界存身的空間。
那么,人類藝術家們,源于文本和現成的圖像的創作又是如何的呢?米開朗基羅的西斯廷天頂繪畫——7幅表現圣經舊約內容的故事繪畫,被高高懸掛在天穹之上,從創世紀到大洪水,從上帝制造亞當到夏娃和蛇,每一幅都對應著人們耳熟能詳的故事文本。不僅僅是米開朗基羅,在貫穿西方藝術史大量的宗教題材繪畫中,假如我們把圣經文本當作一個先決的提示詞(prompt)集合,那么,它是否就為文生圖提供了海量的圖像實例?
米開朗基羅不是第一個畫圣經的藝術家,顯然也不是最后一個,他生活在人類前后相繼的視覺傳統中,對歷史有直接觀看以及觸摸的經驗。他未必是從圣經的語言出發來機械地圖解化這些故事,而是直接面對大量的圖像集合和藝術實例。雖然上帝這一概念是形而上的,但其形象卻是歷史中的人通過總結、沉思、搏斗和再象征得到的。米開朗基羅通過觀看、觸摸、體會、感受人類實體,做出了自己的圖像回應,重建了視覺歷史的秩序。
其次,圣經是文學的語言,是神話和寓言的世界,而不是提示詞式機械地執行指令,人類之所以理解圣經所闡述的故事,是因為我們就生活在世界之中,我們借助故事來闡發自己對生存的渴望、激情和感受。而對AI來說,世界的存亡與否都無關緊要,它只需要執行數據點,計算特征向量,按照統計概率輸出結果即可。
事實上,上帝創造亞當的時候,他是怎么說的呢?
“要照著我們的形象、樣式造人。”(“Then God said, ‘Let us make mankind in our image, in our likeness…and let them have dominion…’ So God created mankind in his own image, in the image of God he created them; male and female he created them.”) 在這里,上帝并沒有先寫下一段造人的提示詞,他直接從自己的形象里,造出了人。
圖像一詞,除了外顯之形、顯現、影像的意思,還和想象(imagination)共享了同一個拉丁文原文imago, 它還意味著,在心中再造“形象”的能力,因此,圖像不僅是人的被造狀態,更是人的想象性本質。而如今,線性的文本預編碼了我們對圖像的想象。AI交還給我們的,那些看似擁有驚人細節和不可思議的圖像,并非真正的圖像,而是語言的圖像索引版本(往往是一堆概念的縫合、拼接和融合),是具有圖像性的數據集合,是徒勞地對盲人解釋何為顏色。
然而真正的危機是,盡管今天我們還會承認,米開朗基羅的工作不能被AI替代,但我們確實可以通過輕松地為語料庫增加數據的方式,來訓練一個AI,讓它替代歷史上真實的米開朗基羅。
![]()
米開朗基羅的“最新作品”,由Midjourney生成
每一個圖像模型的公司都意識到了,只有人類創造的圖像實例,才是世界本身的鏡像。因此,開采圖像實例,自然而然地成為了他們的終極使命所在。無論是Sora還是MJ,它們無一例外野心勃勃地宣稱,自己要做的絕不僅僅是些文生圖的小把戲,而是要徹底地、革命性地創建“世界模型” 。正如MJ的圖生視頻更新這樣說:“正如你所知道的,過去幾年我們的重點是圖像。但你可能不知道,我們相信,這項技術最終將走向的,是能夠模擬實時開放世界的模型。”(As you know, our focus for the past few years has been images. What you might not know, is that we believe the inevitable destination of this technology are models capable of real-time open-world simulations.)
一個實時、開放的世界模型,和我們所處的真實世界又能夠有什么本質區別呢?這些硅谷公司似乎決心通過踐行博爾赫斯的理想成為上帝,創造出一張能夠覆蓋全世界1:1的地圖,用擬像覆蓋全世界。更進一步的設想,是即便整個自然界不復存在,AI依然可以源源不斷地生產出關于外部世界的新圖像,我們終將進入信息總和遠遠大于自然總和的超真實世界。這在概念上是可能的,在技術上也正在實現。何況“虛擬”并非新問題,正如弗魯塞爾所說,一張超真實的全息桌子,可以讓人安然地把打字機安置其上。
于是,這一次,柏拉圖洞穴中被縛的是AI,而我們,則成了那團映照世界的火。





京公網安備 11011402013531號