Chat GPT文生圖不用DALL·E模型了？

IP屬地中國(guó)·北京 編輯：顧雨柔鈦媒體APP 時(shí)間：2025-03-26 19:02:45

文 | 王智遠(yuǎn)
昨晚，Open AI更新了ChatGPT文生圖能力。
準(zhǔn)確來(lái)說(shuō)，這次升級(jí)是一次小革命。以前，它借助DALL—E來(lái)生成圖像，現(xiàn)在功能直接融入到ChatGPT里面了。
新能力能讓ChatGPT生成的圖片更準(zhǔn)確。什么叫準(zhǔn)確？按照官方意思，能貼合你的要求。要讓它生成一個(gè)戴眼鏡的貓咪，它會(huì)先思考一下，然后畫(huà)出來(lái)一個(gè)更詳細(xì)的戴眼鏡的貓咪。
最后一項(xiàng)是修改圖像。哪些細(xì)節(jié)不滿(mǎn)意，直接告訴它就能修改。
官方直播活動(dòng)中，也演示了幾個(gè)例子。有兩名研究人員和奧特曼拍了一張合影，然后他們讓ChatGPT把這張普通的照片變成動(dòng)畫(huà)風(fēng)格的畫(huà)。結(jié)果，ChatGPT輕松地就完成了這個(gè)任務(wù)。
另一個(gè)是，團(tuán)隊(duì)要求ChatGPT在生成的圖像上加一些文字，比如在圖片上寫(xiě)上“Feel The AGI”。ChatGPT也順利地做到了。
看不少介紹的文章后，感覺(jué)有些吹捧，于是上午見(jiàn)完朋友，下午回來(lái)趕緊試了試。問(wèn)題是，怎么區(qū)分不同模型之間的能力差異呢？
我讓Qwen幫我寫(xiě)了個(gè)提示詞：

想象一個(gè)賽博朋克風(fēng)格的場(chǎng)景，霓虹燈一閃一閃的，到處都是高樓大廈，樓上有大廣告屏，街上跑著懸浮車(chē)，天上飛著無(wú)人機(jī)，還有一輪紫色的月亮掛在天上，地上的行人穿著高科技的衣服。從高處往下看整個(gè)城市，畫(huà)面要高清，細(xì)節(jié)越多越好。
寫(xiě)完后，把提示詞分別給了GPT和即夢(mèng)AI。不到20秒，GPT出圖了，它和即夢(mèng)AI的圖對(duì)比來(lái)說(shuō)，每個(gè)模型對(duì)提示詞的理解不同，兩張圖都有賽博朋克的感覺(jué)，但細(xì)節(jié)上各有特點(diǎn)。
要評(píng)價(jià)的話(huà)，兩張圖片都比較模糊。但即夢(mèng)AI操作起來(lái)比較方便，直接點(diǎn)擊細(xì)節(jié)修復(fù)、超清功能，就能有效提升清晰度，效果明顯。
GPT在這方面稍顯不足，我讓它生成高清一點(diǎn)的圖，結(jié)果它又生成了一張圖，遺憾的是，依然沒(méi)有達(dá)到我的預(yù)期。
圖釋?zhuān)鹤螅珻hat GPT；右，即夢(mèng)AI
因此，從圖像清晰度控制的可控性來(lái)看，GPT可能稍弱一些。不過(guò)它也有自己的優(yōu)勢(shì)；比如：在調(diào)整尺寸上，我提出要1:1尺寸的圖片時(shí)，它會(huì)給到兩個(gè)不同的解決方案，并問(wèn)我，你覺(jué)得哪個(gè)更高？更傾向哪個(gè)？
重復(fù)試了好幾個(gè)提示詞，結(jié)果依然這樣。
我又試了一下它的新能力：世界知識(shí)的功能。官方說(shuō)，這功能讓AI在生成圖片時(shí)，能更好地理解，并用上現(xiàn)實(shí)世界里的知識(shí)，做出的圖更貼合用戶(hù)的要求，也更符合實(shí)際邏輯。
說(shuō)白了，AI在作圖時(shí)，會(huì)考慮現(xiàn)實(shí)里的細(xì)節(jié)，像地理位置、文化背景、還有物理規(guī)矩啥的。比如，畫(huà)個(gè)雪山就不會(huì)冒出熱帶植物，畫(huà)個(gè)古代場(chǎng)景不會(huì)突然冒出手機(jī)。
于是，我讓Qwen幫我又寫(xiě)了一個(gè)提示詞：

生成一張圖，用兩個(gè)站在滑板上的人推對(duì)方的動(dòng)作來(lái)解釋牛頓第三定律。要求畫(huà)面直觀，能清楚展示作用力和反作用力的關(guān)系。
給到它后，怎么評(píng)價(jià)呢？像那么回事。它能展示兩個(gè)人在滑板上互相推開(kāi)的關(guān)系，而且還增加了一些箭頭和英文解釋?zhuān)坏牵覟槭裁从X(jué)得這個(gè)能力像一個(gè)圖像PPT功能呢。
緊接著，我又測(cè)試幾輪，分別生成一個(gè)人的頭部骨骼、身體骨骼。如果滿(mǎn)分是10分，我最多給6分，因?yàn)榇蟛糠帜芰ψ止?jié)、騰訊的文生圖模型都能做到。
圖釋?zhuān)鹤螅珻hat GPT；右，即夢(mèng)AI
Sam Altman對(duì)這款產(chǎn)品評(píng)價(jià)很高，表示難以相信這是AI生成的，認(rèn)為大家會(huì)喜歡，并期待用戶(hù)用它創(chuàng)作出更多創(chuàng)意內(nèi)容。
他的目標(biāo)是盡量避免生成冒犯性?xún)?nèi)容，認(rèn)為將創(chuàng)作自由和控制權(quán)交給用戶(hù)是正確的，但也會(huì)關(guān)注實(shí)際使用情況并聽(tīng)取社會(huì)意見(jiàn)。
Altman希望大家理解，他們?cè)谂ζ胶庾杂珊拓?zé)任的關(guān)系，確保AI的發(fā)展符合大家的期望和道德標(biāo)準(zhǔn)。這些都是老生常談的話(huà)。
我覺(jué)得，比起它目前的生成能力，更應(yīng)該關(guān)注它為什么要替代DALL·E模型。要知道，DALL·E模型是OpenAI在2021年1月發(fā)布的模型。作為老模型，難道不應(yīng)該持續(xù)迭代，讓它更強(qiáng)大嗎？
實(shí)際上，關(guān)鍵在于DALL-E模型核心架構(gòu)是自回歸模型。
什么是自回歸模型呢？
它利用自身歷史的數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)的數(shù)據(jù)。工作方式是把圖像拆解為一系列token（類(lèi)似于文字中的單詞），然后像寫(xiě)作文一樣，一個(gè)token一個(gè)token地生成圖像。
舉個(gè)例子：
你要畫(huà)一只貓，你先畫(huà)了貓的頭，然后根據(jù)頭的樣子再畫(huà)眼睛，再根據(jù)眼睛和頭的關(guān)系畫(huà)鼻子，一步步來(lái)，不能跳過(guò)任何一個(gè)步驟。這就是自回歸模型的工作方法。
優(yōu)點(diǎn)是能保證細(xì)節(jié)，缺點(diǎn)很明顯，一，速度跟不上、二，前面要是畫(huà)錯(cuò)了，后面很難調(diào)整；因此，OpenAI選擇用新的模型來(lái)替代它。
那么，替代后的模型什么樣呢？答案是非自回歸模型（Non-autoregressive models），它改變了核心架構(gòu)。
這個(gè)架構(gòu)會(huì)先理解整個(gè)圖的結(jié)構(gòu)和細(xì)節(jié)，更像學(xué)生先聽(tīng)完老師講完題目，把整張畫(huà)的輪廓搞出來(lái)，再一點(diǎn)點(diǎn)填細(xì)節(jié)。比如：畫(huà)只貓，先勾勒出貓的外形，再去細(xì)化毛發(fā)、眼睛。
這種模型采用一種特殊的編碼、解碼架構(gòu)來(lái)實(shí)現(xiàn)目標(biāo)。簡(jiǎn)單來(lái)說(shuō)，編碼器負(fù)責(zé)“讀題”，理解你輸入的文字；解碼器負(fù)責(zé)“作答”，根據(jù)文字生成圖片。
優(yōu)勢(shì)在于，一，不再像老方法那樣一步步、逐像素地生成圖像，效率更高，二，整體表現(xiàn)更強(qiáng)，特別是在復(fù)雜場(chǎng)景里，能更好地處理多個(gè)物體之間的關(guān)系，生成的圖片更逼真。
好比畫(huà)一個(gè)桌子上有杯子、書(shū)本和臺(tái)燈的場(chǎng)景，非自回歸模型能更自然地處理東西的位置和光影效果，不會(huì)顯得亂七八糟。而且，它對(duì)復(fù)雜的文字指令理解得更好，生成的圖片和描述基本能做到符合邏輯。
還有一個(gè)特點(diǎn)：這種模型靈活性強(qiáng)，能融合到多模態(tài)里，比如，把它塞進(jìn)ChatGPT 4.0里，它不僅能看圖，還能結(jié)合音頻或已有的圖像，進(jìn)而生成更多樣化的內(nèi)容。
因此，Open AI這一步本質(zhì)做了一次小小的自我革命。
春節(jié)時(shí)，DeepSeek發(fā)布一款文生圖模型Janus-Pro，關(guān)注過(guò)的人應(yīng)該知道，它采用了非自回歸的框架。Janus系列中的Janus-Pro-7B模型，在Geneval的準(zhǔn)確率上達(dá)到了80%，甚至超過(guò)DALL-E 3的61%。
我查了一下，這種非自回歸模型最早在2018年的ICLR會(huì)議上提出，最初應(yīng)用于神經(jīng)機(jī)器翻譯（Neural Machine Translation, NMT）領(lǐng)域，目的是加速推理速度。
從論文綜述來(lái)看，微軟在2022年5月13日進(jìn)行了進(jìn)一步研究。而國(guó)內(nèi)2023年左右，阿里巴巴、科大訊飛、昆侖萬(wàn)維、云從科技等一系列企業(yè)已經(jīng)引入這一技術(shù)。
所以，OpenAI是看到了國(guó)內(nèi)對(duì)這一模型應(yīng)用的成熟，開(kāi)始反思自己了嗎？

免責(zé)聲明：本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類(lèi)資訊

Windows 11任務(wù)欄至今仍無(wú)法自由移動(dòng)！微軟終于給出原因：沒(méi)用舊代碼

東安動(dòng)力首臺(tái)轉(zhuǎn)子發(fā)動(dòng)機(jī)R05E點(diǎn)火成功，2027年量產(chǎn)

挑戰(zhàn)液態(tài)海洋共識(shí)：NASA研究稱(chēng)土衛(wèi)六含太陽(yáng)系最大“冰沙”

曝TikTok交易達(dá)成，美國(guó)和字節(jié)跳動(dòng)各掌握一家公司

AI賦能流程神州數(shù)碼汽車(chē)行業(yè)AI 應(yīng)用落地研討會(huì)在滬舉辦

希迪智駕港交所上市，成港股首家商用車(chē)智能駕駛公司

全站最新

Windows 11任務(wù)欄至今仍無(wú)法自由移動(dòng)！微軟終于給出原因：沒(méi)用舊代碼

東安動(dòng)力首臺(tái)轉(zhuǎn)子發(fā)動(dòng)機(jī)R05E點(diǎn)火成功，2027年量產(chǎn)

挑戰(zhàn)液態(tài)海洋共識(shí)：NASA研究稱(chēng)土衛(wèi)六含太陽(yáng)系最大“冰沙”

曝TikTok交易達(dá)成，美國(guó)和字節(jié)跳動(dòng)各掌握一家公司

熱門(mén)推薦

基于阿里千問(wèn)，烏干達(dá)打造本土大模型

比亞迪正式進(jìn)入伊拉克市場(chǎng)，推出BYD SHARK 6

金沙酒業(yè)營(yíng)銷(xiāo)負(fù)責(zé)人更迭，王維龍離職，韓玉國(guó)接棒

Windows 11任務(wù)欄至今仍無(wú)法自由移動(dòng)！微軟終于給出原因：沒(méi)用舊代碼

東安動(dòng)力首臺(tái)轉(zhuǎn)子發(fā)動(dòng)機(jī)R05E點(diǎn)火成功，2027年量產(chǎn)

挑戰(zhàn)液態(tài)海洋共識(shí)：NASA研究稱(chēng)土衛(wèi)六含太陽(yáng)系最大“冰沙”

曝TikTok交易達(dá)成，美國(guó)和字節(jié)跳動(dòng)各掌握一家公司

AI賦能流程神州數(shù)碼汽車(chē)行業(yè)AI 應(yīng)用落地研討會(huì)在滬舉辦

希迪智駕港交所上市，成港股首家商用車(chē)智能駕駛公司

千問(wèn)App辟謠：全員大會(huì)集體吃豆包圖是AI生成的

你的“大廠(chǎng)經(jīng)驗(yàn)”，在AI面前可能一文不值

科學(xué)與健康|改寫(xiě)生命演化史！2025我國(guó)古生物學(xué)研究在多領(lǐng)域取得突破

他設(shè)計(jì)的手機(jī)賣(mài)了1.5億臺(tái) | 我們的四分之一世紀(jì)

VEX機(jī)器人亞洲公開(kāi)賽在京開(kāi)幕，全球近30國(guó)青少年選手參賽

拼多多：趙佳臻獲任聯(lián)席董事長(zhǎng)，與陳磊共同擔(dān)任集團(tuán)聯(lián)席董事長(zhǎng)兼聯(lián)席CEO