亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

一句話性能暴漲49%!馬里蘭MIT等力作:Prompt才是大模型終極武器

IP屬地 中國·北京 編輯:趙靜 新智元 時間:2025-08-18 18:08:19

提示詞才是AI隱藏的王牌!馬里蘭MIT等頂尖機構研究證明,一半提示詞,是讓AI性能飆升49%的關鍵。

AI性能的提升,一半靠模型,一半靠提示詞。

最近,來自馬里蘭大學、MIT、斯坦福等機構聯手驗證,模型升級帶來的性能提升僅占50%,而另外一半的提升,在于用戶提示詞的優化。

他們將其稱之為「提示詞適應」(prompt adaptation)。

為此,他們讓DALL-E 2和DALL-E 3來了一場PK,1,893名「選手」在10次嘗試中,用隨機分配三種模型之一復現目標圖像。

令人驚訝的是,DALL-E 3圖像相似度顯著優于DALL-E 2。

其中,模型升級本身僅貢獻了51%的性能,剩余的49%全靠受試者優化的提示詞。

關鍵是,那些沒有技術背景的人,也能通過提示詞,讓DALL-E 3模型生成更好的圖片。

OpenAI總裁Greg Brockman也同樣認為,「要充分發揮模型的潛力,確實需要一些特殊的技巧」。

他建議開發者們去做「prompt庫」管理,不斷探索模型的邊界。

換言之,你的提示詞水平,決定了AI能不能從「青銅」變成「王者」。

別等GPT-6了!

不如「調教」提示詞

GenAI的有效性不僅取決于技術本身,更取決于能否設計出高質量的輸入指令。

2023年,ChatGPT爆紅之后,全世界曾掀起一股「提示詞工程」的熱潮。

盡管全新的「上下文工程」成為今年的熱點,但「提示詞工程」至今依舊炙手可熱。

然而共識之下,提示詞設計作為一種動態實踐仍缺乏深入研究。

多數提示詞庫和教程,將有效提示視為「可復用成品」,但卻用到新模板中可能會失效。

這就帶來了一些現實的問題:提示策略能否跨模型版本遷移?還是必須持續調整以適應模型行為變化?

為此,研究團隊提出了「提示詞適應」這一可測量的行為機制,用以解釋用戶輸入如何隨技術進步而演進。

他們將其概念化為一種「動態互補能力」,并認為這種能力對充分釋放大模型的經濟價值至關重要。

為評估提示詞適應對模型性能的影響,團隊采用了Prolific平臺一項預注冊在線實驗數據,共邀請了1,893名參與者。

每位受試者被隨機分配三種不同性能的模型:DALL-E 2、DALL-E 3,或自動提示優化的DALL-E 3。

除模型分配外,每位參與者還獨立分配到15張目標圖像中的一張。這些圖像選自商業營銷、平面設計和建筑攝影三大類別。

實驗明確告知參與者模型無記憶功能——每個新提示詞均獨立處理,不繼承先前嘗試的信息。

每人需要提交至少10條提示詞,需通過模型盡可能復現目標圖像,最優表現者將獲得高額獎金。

任務結束后參與者需填寫涵蓋年齡、性別、教育程度、職業及創意寫作/編程/生成式AI自評能力的人口統計調查。

隨機分配,10次生成

實驗的核心結果指標,是參與者生成的每張圖像與指定目標圖像之間的相似度。

這項指標通過CLIP嵌入向量的余弦相似度進行量化。

由于生成模型的輸出具有隨機性,同一提示詞在不同嘗試中可能產生不同的圖像。

為控制這種變異性,研究人員為每個提示詞生成10張圖像,并分別計算它們與目標圖像的余弦相似度,隨后取這10個相似度得分的平均值作為該提示詞的預期質量分數。

回放分析:是模型,還是提示詞?

實驗的另一個核心目標在于,厘清圖像復現性能的提升中,有多少源于更強大的模型,又有多少來自提示詞的優化?

根據概念框架的表述,當模型從能力水平θ1升級至更高水平θ2時,其輸出質量的總改進可表示為:

△Q =Q(θ2,s,x*(θ2,s)) - Q(θ1,s,x*(θ1,s)).

研究人員將這一變化分解為兩部分:

1. 模型效應:將相同提示詞應用于更優模型時,獲得的性能提升;

M =Q(θ2, s,x*(θ1,s)) - Q(θ1,s,x*(θ1, s)),

2. 提示詞效應:通過調整提示詞以充分發揮更強大模型優勢所帶來的額外改進。

P = Q(θ2,s,x*(θ2,s)) - Q(θ2, s,x*(θ1, s)).

為實證評估這兩個組成部分,研究人員對DALL-E 2和DALL-E 3(原詞版)實驗組參與者的提示詞進行了額外分析。

具體方法是將實驗過程中參與者提交的原始提示詞,重新提交至其原分配模型和另一模型,并分別生成新圖像。

分離模型效應

針對DALL-E 2參與者編寫的提示詞(x*(θ1,s)),團隊同時在DALL-E 2和DALL-E 3模型上進行評估,分別獲得Q[θ1s,x*(θ1,s)]和Q[θ2,s,x*(θ_1,s)]的實測值。

這一對比可分離出模型效應:即在固定提示詞情況下,僅通過升級模型獲得的輸出質量提升。

比較提示效應

為了評估提示詞效應,作者還比較了以下兩組數據:

1. 在DALL-E 3上回放DALL-E 2提示詞的質量(即Q[θ2,s,x*(θ1,s)]估計值)

2. DALL-E 3的參與者專門為模型編寫的提示詞在相同模型上的質量(即Q[θ2,s,x*(θ2,s)]估計值)

這一差異恰恰能反映,用戶通過調整提示詞,模型本身得到的額外改進。

那么,這項實驗的具體結果如何?

DALL-E 3強大的生圖能力

提示詞解鎖了一半

實驗中,研究團隊主要探討了三大問題:

(i) 接入更強大的模型(DALL-E 3)是否能提升用戶表現;

(ii) 用戶在使用更強模型時如何改寫或優化他們的提示詞;

(iii) 整體性能提升中有多少應歸因于模型改進,多少應歸因于提示詞的適應性調整。

模型升級,是核心

首先,團隊驗證了使用DALL-E 3的參與者,是否比使用DALL-E 2的參與者表現更優?

如下圖1所示,匯總了所有發現。

A展示了三組代表性目標圖像,每組都包含了從兩種模型中抽取的三張圖像。

中間行是,目標圖像余弦相似度最接近全體參與者平均值的生成結果,上行(下行)則呈現比均值相似度高(低)約一個平均處理效應(ATE)的圖像。

在10次必要提示嘗試中,使用DALL-E 3的參與者生成圖像與目標圖像的余弦相似度平均高出0.0164。

這個提升相當于0.19個標準差,如下圖1 B所示。

而且,這種優勢在10次嘗試中持續存在,因此不可否認,模型升級一定會比前代有著顯著的性能提升。

而且,參與者的動態提示行為在兩種模型間也存在顯著差異:

圖C表明,DALL-E 3使用者的提示文本平均比DALL-E 2組長24%,且該差距隨嘗試次數逐漸擴大。

他們更傾向于復用或優化先前提示,這表明當發現模型能處理復雜指令后,他們會采取更具開發性的策略。

此外詞性分析證實,增加的詞匯量提供的是實質性描述信息而非冗余內容:

名詞和形容詞(最具描述性的兩類詞性)占比在兩種模型間基本一致(DALL-E 3組48% vs DALL-E 2組49%,p = 0.215)。

這說明了,提示文本的延長反映的是——語義信息的豐富化,而非無意義的冗長。

模型51%,提示詞49%

研究人員觀察到提示行為的差異表明,用戶會主動適應所分配模型的能力。

DALL-E 3使用者的整體性能提升中,有多少源自模型技術能力的增強,又有多少歸因于用戶針對該能力重寫提示?

為解答這一問題,研究人員采用前文所述的回放(replay)分析法,以實證分離這兩種效應。

模型效應

將DALL-E 2參與者編寫的原始提示,分別在DALL-E 2和DALL-E 3上評估性能。

結果顯示,相同提示在DALL-E 3上運行時余弦相似度提升0.0084(p<10^-8),占兩組總性能差異的51%。

提示效應

將DALL-E 2參與者的原始提示與DALL-E 3參與者編寫的提示(均在DALL-E 3上評估)進行對比。

結果顯示,該效應貢獻了剩余48%的改進,對應余弦相似度提升0.0079(p=0.024)。

總處理效應

總處理效應為0.0164,關鍵的是,當DALL-E 3用戶編寫的提示應用于DALL-E 2時,性能較原始DALL-E 2提示無顯著提升(Δ=0.0020;p=0.56)。

這種不對稱性,印證了提示優化的效果依賴于模型執行復雜指令的能力邊界。

圖2 B通過單一目標圖像直觀呈現這些效應:

上行展示DALL-E 2參與者的原始提示,在DALL-E 3上生成更高保真度的圖像,證明固定提示下模型升級的效果;

下行顯示DALL-E 3參與者的提示在DALL-E 2上輸出質量顯著下降,凸顯當模型能力不足時,提示優化的效果存在天花板。

這些發現研究人員的理論主張,提供了實證支持:

提示優化是一種動態互補策略——用戶根據模型能力提升而主動調整行為,且這種調整對實際性能增益的貢獻不可忽視。

技能異質性

如下表1呈現了「回歸分析結果」,測試了模型效應、提示詞效應以及總效應是否會在不同技能水平的參與者之間系統性地變化。

主要發現如下:

1. 總效應與表現十分位數的交互項呈負相關且統計顯著(?0.000115,p = 0.0152)。

這表明模型改進縮小了高、低績效用戶之間的整體差距,這與概念框架中的命題1一致。

2. 模型效應與表現十分位數的交互項,同樣呈負相關且統計顯著(?0.000059,p=0.0210)。

這說明模型升級主要惠及低技能用戶。這與命題2的理論預測相符,因為接近性能上限的高技能用戶存在收益遞減效應。

3. 并沒有發現提示詞適應的效益,在技能分布上存在顯著差異(?0.000056,p=0.2444)。

此外,研究團隊還評估了自動化提示詞的效果。

結果發現,GPT-4經常添加無關細節或微妙改變參與者的原意,導致模型輸出質量下降58%。

用簡單的話來說,AI寫的提示詞曲解了意圖,不如用戶精心編制的提示詞。

對此,Outbox.ai的創始人Connor Davis給出了建議,不要去過度自動化提示詞,人還應該在其中發揮主動性。

作者介紹

Eaman Jahani

Eaman Jahani是馬里蘭大學商學院信息系統專業的助理教授。

他曾在UC伯克利統計系擔任博士后研究員,還獲得了MIT的社會工程系統與統計學雙博士學位。

Benjamin S. Manning

Benjamin S. Manning目前是MIT斯隆管理學院IT組的四年級博士生。他曾獲得MIT碩士學位和華盛頓大學學士學位。

他的研究圍繞兩個相輔相成的方向:(1) 利用AI系統進行社會科學發現;(2) 探索AI系統如何代表人類并按照人類指令行事。

Joe Zhang

Joe Zhang目前是斯坦福大學博士生,此前,曾獲得了普林斯頓大學的學士學位。

個人的研究喜歡從人機交互到社會科學等多個學術領域汲取靈感,試圖理解新興的人機協作系統及其對商業和社會的影響。

參考資料:

https://arxiv.org/abs/2407.14333v5

https://x.com/connordavis_ai/status/1957057335152836737

標簽: 模型 參與者 圖像 效應 用戶 性能 目標 能力 系統 建議 策略 人類 指令 技能 馬里蘭 終極 學士學位 武器 工程 博士后 人員 社會 動態 信息 貢獻 技術 結果 社會科學 余弦 機構 信息系

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

久热这里只有精品6| 99re国产| 久久男人资源站| 特级西西人体wwwww| 国产一区二区导航在线播放| 欧美成人黑人xx视频免费观看| 少妇精品一区二区三区| 亚洲桃色在线一区| 国产精品观看在线亚洲人成网| 中文字幕一区二区中文字幕| 日韩免费一二三区| 亚洲欧美日韩国产成人精品影院| 国产精品美女久久久久久久久久久| 日韩—二三区免费观看av| va视频在线观看| 亚洲AV无码一区二区三区性 | 欧美 日韩 亚洲 一区| 久久久久久久福利| 亚洲精品美女在线观看| 天堂中文在线网| 成人h视频在线观看| 国产福利一区二区| 九九久久精品一区| 超碰人人爱人人| 一区二区www| 欧美日韩色一区| 欧美一区二区中文字幕| 日韩视频一二三| 全黄性性激高免费视频| 视色视频在线观看| 国精品人伦一区二区三区蜜桃| 亚洲最新视频在线播放| 欧美视频观看一区| 国产大片中文字幕| 亚洲欧美日韩一区二区三区在线| 久草国产在线视频| 国产成人97精品免费看片| 无码精品视频一区二区三区| 亚洲欧美日韩网| 九九热只有这里有精品| 久久成人免费电影| 日韩成人在线视频| 三级av免费看| 在线观看av网页| 欧美疯狂性受xxxxx喷水图片| 国产第一页精品| 欧美视频一区二| 在线观看污视频| 久久久久久久香蕉| 在线成人免费av| 精品视频久久久久| 国产一区二区欧美日韩| 鲁大师私人影院在线观看| 国产伦理精品不卡| 精品久久久久久一区二区里番| 一区二区三区免费观看视频| 久久6免费高清热精品| 777777国产7777777| 国产电影精品久久禁18| 人人澡人人澡人人看欧美| 国产精品无码自拍| 国产欧美日韩另类一区| 福利视频第一区| 一区二区三区视频免费| 国产精品日韩一区二区免费视频| 天天爽夜夜爽一区二区三区| 欧美日韩不卡视频| 国模大尺度视频| 亚洲日本一区二区| 成人免费视频久久| 欧美劲爆第一页| 五月天久久比比资源色| 国产情侣自拍av| 欧美日韩亚洲国产成人| av中文字幕亚洲| 久久精品国产美女| 国产高清视频一区| 亚洲欧美日产图| 成人综合在线观看| 中文在线资源观看视频网站免费不卡| 在线免费黄色小视频| 欧美成人精品xxx| 午夜在线观看视频18| 一级二级三级欧美| 亚洲一区二区av在线| 亚洲色图美腿丝袜| 免费在线成人网| 日韩黄色av网站| 日韩一级免费片| 亚洲精品怡红院| 久久久午夜精品理论片中文字幕| 999精品视频一区二区三区| 亚洲一级黄色大片| 欧美床上激情在线观看| 少妇影院在线观看| 精品调教chinesegay| 泷泽萝拉在线播放| 欧美一区二区大片| 亚洲黄色免费在线观看| 欧美日韩专区在线| 久久久无码人妻精品无码| 欧美日韩国产专区| 亚洲a级黄色片| 精品高清一区二区三区| 午夜国产一区二区三区| 亚洲女爱视频在线| 日韩中文字幕三区| 一区二区三区日韩欧美| 成人一区二区三| 亚洲在线一区二区三区| 日本久久久精品视频| 亚洲免费在线视频一区 二区| 久激情内射婷内射蜜桃| 亚洲视频狠狠干| 别急慢慢来1978如如2| 亚洲图片欧美综合| 99视频在线观看视频| 欧美日韩亚洲综合一区| 国产老熟女伦老熟妇露脸| 日韩午夜在线播放| 欧美一级特黄高清视频| 一区二区三区无码高清视频| 日韩乱码人妻无码中文字幕| 欧美激情视频在线| a在线观看视频| 国产精品一区二区久久久| 久久视频一区| 国产一区视频观看| 91丝袜国产在线播放| 成年人三级视频| 一区二区三区四区不卡在线| 日本55丰满熟妇厨房伦| 日韩精品资源二区在线| 男人与禽猛交狂配| 久久男人资源视频| 色呦呦中文字幕| 免费观看成人高| 久久久九九九九| 成人免费xxxxx在线视频| 欧美日韩在线影院| 性高潮久久久久久久| 色综合伊人色综合网| 国产欧美一级片| 久久久久久草| 亚洲人精品午夜| 一边摸一边做爽的视频17国产 | 一区二区在线观看视频在线观看| 欧美wwwwwww| 欧美一区二区三区的| 九九视频在线观看| 日本韩国欧美精品大片卡二| 日本亚洲视频在线| 成人在线免费观看视频网站| 精品久久久久久中文字幕大豆网| 中文字幕国产专区| 欧美成在线观看| 男人的j进女人的j一区| 国产精品视频网站在线观看| 在线欧美日韩国产| 国产一级特黄a高潮片| 日韩免费黄色av| 成人精品视频一区二区三区| 日本精品一区在线观看| 欧美一区二区三区不卡| 久草视频手机在线观看| 国产精品流白浆视频| 成人午夜在线播放| gai在线观看免费高清| 亚洲香蕉成人av网站在线观看 | 欧美日韩一区免费| 福利所第一导航| 国产精品一区二区久久| 国产亚洲欧美中文| 亚洲黄色免费在线观看| 久久久人成影片一区二区三区观看| 蜜臀av性久久久久蜜臀av麻豆| 国产一线二线三线女| 日韩欧美国产综合在线一区二区三区| 国产乱码77777777| 日韩免费一区二区三区| 色综合av在线| 超碰在线观看91| 秋霞在线观看一区二区三区| 欧美体内谢she精2性欧美| 欧美人与禽zozzo禽性配| 亚洲一区二区三区视频播放| 亚洲男同1069视频| 中文字幕影音先锋| 成人自拍视频网站| 欧美性xxxx18| 国产日韩久久久| 中文精品一区二区三区 | 亚洲精品在线免费播放| 99草在线视频| 九一国产精品视频| 色吧影院999| 成人三级伦理片| 美女洗澡无遮挡| 91黄在线观看| 在线观看不卡一区| 99视频免费看| 麻豆传传媒久久久爱| 日韩中文字幕不卡视频| 成人午夜视频在线| jizz中文字幕| 国产伦精品一区二区三区| 欧美丝袜自拍制服另类| 国产综合在线播放| 污污网站在线观看视频| 欧美专区中文字幕| 亚洲成人精品影院| 伊人亚洲综合网| 欧美日韩亚洲第一| 久久久久这里只有精品| 亚洲丝袜精品丝袜在线| 999视频在线| 成人午夜视频在线观看免费| 日韩在线播放一区| 国产欧美日韩卡一| 久久国产黄色片| 成人在线国产视频| 久久久久久久久久久成人| 1000精品久久久久久久久| 六月丁香婷婷综合| 国产91在线视频观看| 国模叶桐国产精品一区| 亚洲一区二区精品视频| 超碰免费在线97| 992tv人人草| 成人免费在线一区二区三区| 精品毛片乱码1区2区3区| 国产精品夜夜嗨| 天天综合天天做| 日韩精品一区二区在线视频| 久久久久久国产精品久久| 一区二区三区在线观看网站| 国产日韩免费视频| 超碰人人cao| 国产精品免费一区二区三区四区 | 午夜一区在线观看| 荫蒂被男人添免费视频| 99在线观看视频| 欧美精品18+| www.在线成人| 午夜免费激情视频| 免费 成 人 黄 色| 国产成人精品999| 欧美午夜精品久久久久久孕妇 | 粉嫩av四季av绯色av第一区| 欧美一区二区三区在线观看视频 | 久久天堂av综合合色| 亚洲乱码日产精品bd| 国产免费一区二区三区免费视频| 久久久精品三级| 91手机在线播放| 欧美va亚洲va| 91在线免费视频观看| 国产在线一级片| 一个人看的视频www| 成人三级在线| www日韩欧美| 欧美日韩中文在线| 国产毛片精品视频| xxx在线播放| 69精品丰满人妻无码视频a片| 久久久综合av| 欧美一卡2卡3卡4卡| 97精品超碰一区二区三区| 欧美日韩在线视频播放| 你懂得在线视频| 日本久久高清视频| 国产福利精品av综合导导航| 欧美精品一区二区高清在线观看| 久久久亚洲精品石原莉奈| 91中文字幕在线视频| 婷婷色一区二区三区| 福利视频一区二区三区四区| 国产精品丝袜一区二区三区| 亚洲色图第一页| 日韩欧亚中文在线| 成人h版在线观看| 国产草草影院ccyycom| 中文字幕第二区| 青青在线视频免费| 日韩欧美亚洲日产国| 日本久久久久久久久久久| 亚洲丁香婷深爱综合| 第一福利永久视频精品| 白白色亚洲国产精品| 精品久久无码中文字幕| 国产一级av毛片| 日本一卡二卡在线| 91好吊色国产欧美日韩在线| 欧美成人综合一区| 992tv在线成人免费观看| 欧美丰满少妇xxxbbb| 夜色激情一区二区| www.在线成人| 久久综合九色综合欧美狠狠| 五月天中文字幕| 五月天色婷婷丁香| 中文字幕乱码人妻综合二区三区| 日本一区二区三区四区高清视频| 日本aⅴ大伊香蕉精品视频| 欧美va日韩va| 在线观看成人小视频| 亚洲女子a中天字幕| 久久综合av免费| 日本欧美大码aⅴ在线播放| 中文字幕av免费观看| 欧美另类视频在线观看| 少妇户外露出[11p]| 啊啊啊国产视频| 国产日韩av网站| 三区精品视频| 99在线视频播放| 国产成人97精品免费看片| 久久精品福利视频| 亚洲精品98久久久久久中文字幕| 91福利在线导航| 亚洲国产乱码最新视频| 成人av在线资源| 国产一区二区三区不卡在线观看| 性网爆门事件集合av| 中日精品一色哟哟| 欧美黑人一级片| 日本污视频网站| 免费看毛片的网站| 国产在线视频三区| 亚洲欧洲日本精品| 欧美自拍小视频| 免费在线观看亚洲视频| av不卡在线免费观看| 亚洲一区三区| 欧美日产一区二区三区在线观看| 国产精品综合久久久| 欧美在线视频观看免费网站| 欧美日韩福利视频| 欧美区二区三区| 欧美xxxx综合视频| 中文字幕亚洲欧美| 中文字幕成人精品久久不卡 | 国产高潮视频在线观看| 在线看的黄色网址| 91精品无人成人www| 欧美激情成人网| 国产3p在线播放| 欧美成人乱码一二三四区免费| 另类小说第一页| 亚洲免费黄色网| 欧美体内she精高潮| 免费日本黄色网址| 极品白嫩丰满美女无套| 国内精品久久99人妻无码| 亚洲精品一区二区三区影院忠贞| 美女洗澡无遮挡| 日韩精品在线播放视频| 一出一进一爽一粗一大视频| 国产黄色三级网站| 成人精品一二三区| 欧美日韩三级在线观看| 青青草av在线播放| www.4hu95.com四虎| 久久久久久久伊人| 精品久久久久久久久久久国产字幕| 在线观看国产精品入口男同| 亚洲午夜精品久久久| 超碰在线播放97| 黑人巨大精品欧美黑白配亚洲| 国产高清视频一区| 欧美国产一区视频在线观看| 亚洲欧美激情一区二区| 精品美女国产在线| 日韩一区二区三区视频在线| 亚洲大胆人体av| 美女少妇精品视频| 日本高清不卡的在线| 成人乱人伦精品视频在线观看| 国产区日韩欧美| 亚洲国产欧洲综合997久久| 亚洲一区不卡在线| 免费高清在线观看免费| 久久久久亚洲av无码麻豆| 一本在线免费视频| 欧美日韩免费做爰视频| 午夜久久久久久久久久影院| 午夜av免费观看| 成人激情免费电影网址| 中文字幕在线不卡一区| 五月天一区二区| 欧美日韩精品一区二区三区四区| 亚洲美女视频网| 欧美又大又粗又长| 日韩av图片| 116极品美女午夜一级| 老熟女高潮一区二区三区| 国产精品九九九九九九| 一级片一区二区三区| 久久成人精品无人区| 久久蜜桃av一区精品变态类天堂| 国产日韩欧美制服另类| 欧美在线播放高清精品| 亚洲成人亚洲激情| 18一19gay欧美视频网站| 九色视频成人porny| 欧美国产激情视频| 中文字幕第20页| 国产精品视频一二区| 99精品久久免费看蜜臀剧情介绍| 欧美日韩在线看|