![]()
這項由上海AI實驗室、浙江大學、中國科學技術大學深圳分校等機構聯合完成的突破性研究發表于2025年9月,論文編號為arXiv:2509.24709。研究團隊包括陳陽、劉明浩、沈雨帆等多位來自不同院校的研究者,項目由上海AI實驗室的沈雨帆教授領導。有興趣深入了解的讀者可以通過該論文編號查詢完整論文內容。
當我們瀏覽網頁時,看到精美的界面、流暢的動畫效果和各種交互功能,很少有人會想到這背后需要大量的代碼來支撐。傳統上,要讓AI學會制作網頁,研究者們通常只給它看靜態的截圖,然后讓它生成對應的代碼。這就像讓一個人僅憑一張照片就要畫出整幅畫作一樣,缺少了很多重要信息。
然而,真實的網頁遠比靜態截圖復雜得多。當用戶點擊按鈕時頁面會發生變化,當鼠標懸停在某個區域時會出現新的內容,當用戶填寫表單時系統會給出相應反饋。這些動態的交互過程包含了網頁運作的核心邏輯,但在傳統的AI訓練方法中卻被完全忽略了。
正是在這樣的背景下,研究團隊提出了一個革命性的想法:為什么不讓AI觀看完整的用戶操作視頻,就像人類學習使用軟件一樣,通過觀察整個交互過程來理解網頁的工作原理呢?
為了驗證這個想法,研究團隊開發了名為IWR-Bench的全新評測基準。這個基準的核心理念可以用一個簡單的比喻來理解:如果說傳統方法是讓AI通過看房屋照片來設計建筑圖紙,那么新方法就是讓AI觀看整個房屋的使用過程——看到人們如何開門、如何使用各個房間、如何操作各種設施,然后根據這些觀察來重新構建出完全相同的房屋。
一、從靜態截圖到動態視頻:AI網頁理解的全新維度
傳統的網頁代碼生成任務就像讓一位廚師僅憑成品菜肴的照片來還原整道菜的制作過程。廚師能夠看到最終的擺盤效果,也許能猜出一些基本食材,但對于具體的烹飪步驟、調料的添加時機、火候的控制等關鍵信息卻一無所知。同樣地,現有的AI模型雖然能夠根據網頁截圖生成基本的頁面布局,但對于用戶點擊按鈕后會發生什么、表單提交后如何處理數據、動畫效果如何實現等交互邏輯卻無從得知。
研究團隊發現,這種局限性源于一個根本問題:靜態截圖無法傳達網頁的時間維度信息。網頁不是一幅靜止的畫作,而是一個動態的系統,它會根據用戶的操作產生相應的變化。這些變化過程中蘊含著網頁功能實現的核心邏輯,也是用戶體驗的關鍵所在。
為了解決這個問題,研究團隊提出了交互式網頁重建這一全新任務。這項任務要求AI模型不僅要看懂網頁的外觀,更要理解網頁的行為模式。就像學習駕駛汽車一樣,僅僅知道汽車的外觀是不夠的,還必須了解如何操作方向盤、如何踩剎車、如何變速等具體的駕駛技能。
在這個新任務中,AI模型接收的輸入包括兩個關鍵部分:首先是一段用戶操作視頻,記錄了用戶與網頁交互的完整過程,包括點擊、輸入、滾動等各種操作以及頁面的相應變化;其次是網頁使用的所有靜態資源,如圖片、圖標、字體等文件。有了這些完整的信息,AI就能像人類一樣通過觀察和學習來理解網頁的工作原理。
這種方法的創新性在于它模擬了人類學習新軟件的自然過程。當我們第一次使用某個應用程序時,通常會先觀察其他人的操作演示,然后自己動手嘗試。通過這種觀察和實踐的結合,我們逐漸掌握了軟件的功能和使用方法。研究團隊正是希望讓AI也能具備這種學習能力。
二、精心構建的評測基準:真實世界的網頁挑戰
為了全面評估AI在交互式網頁重建任務上的表現,研究團隊花費了大量精力構建了IWR-Bench評測基準。這個基準的構建過程就像策劃一場全面的技能考試,需要覆蓋各種難度等級和應用場景,確保能夠準確反映AI的真實能力水平。
整個基準包含113個精心挑選的任務,這些任務全部來源于真實的網站,涵蓋了從簡單的博客瀏覽到復雜的在線游戲等各種應用場景。為了確保評測的全面性,研究團隊建立了一套三維分類體系,就像為這些任務建立了一個立體的分類檔案。
在交互復雜度維度上,任務被分為四個等級。最簡單的L1級別類似于閱讀一篇長文章,主要涉及頁面滾動等基本操作。L2級別增加了簡單的狀態管理,比如在電商網站上篩選商品或切換頁面標簽,就像操作一個簡單的遙控器。L3級別涉及多步驟的復雜工作流程,例如完成一個多頁面的訂票流程,需要在不同的組件之間傳遞信息。最高的L4級別則要求實現復雜的算法邏輯,比如重建一個完整的在線游戲,這就像要求AI理解并實現一套完整的游戲規則。
在視覺復雜度維度上,任務同樣分為四個等級。V1級別是極簡的單欄或雙欄布局,類似于簡潔的文檔頁面。V2級別采用標準的網格布局,就像整齊排列的商品展示頁面。V3級別包含現代化的非對稱設計,具有重疊元素和復雜的視覺效果。V4級別則是信息密集的儀表板界面,包含大量圖表、表格和數據卡片。
在應用領域維度上,基準涵蓋了五個主要類別:商務服務類(如電商平臺、預訂系統)、知識教育類(如學術網站、新聞門戶)、生產力工具類(如計算器、項目管理面板)、娛樂媒體類(如游戲、流媒體平臺)以及生活社區類(如社交論壇、個人博客)。這種分類確保了AI模型需要面對各種不同的功能需求和視覺風格。
數據收集過程同樣經過精心設計。研究團隊首先由專業的網頁開發人員從真實網站中選擇了200個候選任務,然后通過嚴格的篩選和平衡過程,最終確定了113個高質量的任務。對于每個任務,團隊都錄制了完整的用戶操作視頻,同時收集了所有相關的靜態資源文件。
特別值得注意的是,為了防止AI模型利用文件名中的語義信息作弊,研究團隊將所有資源文件重命名為隨機的編號,比如將"logo.png"改名為"asset001.png"。這就像在考試中要求學生僅憑圖片內容而非圖片標題來識別物體,確保了評測的公平性和準確性。
每個任務還包含詳細的操作軌跡注釋,記錄了每一步操作的類型、參數、自然語言描述以及相應的驗證條件。這些注釋就像是標準答案,為后續的自動化評測提供了可靠的參考依據。
三、智能評測系統:像人類專家一樣判斷網頁質量
評估AI生成的網頁質量是一個極具挑戰性的任務,就像評判一道菜的味道一樣,需要從多個維度進行綜合考量。傳統的評測方法往往只能檢查代碼的語法正確性或頁面的像素級相似度,但這遠遠不夠。一個真正優秀的網頁不僅要外觀精美,更要功能完備、交互流暢。
為了解決這個難題,研究團隊開發了一套創新的"智能評委"系統,這個系統能夠像人類專家一樣從功能性和美觀性兩個角度全面評估網頁質量。
在功能性評估方面,系統采用了程序化交互測試的方法。就像汽車出廠前需要進行路試一樣,每個AI生成的網頁都要接受一系列標準化的操作測試。系統會按照預先定義的操作序列,在生成的網頁上執行點擊、輸入、滾動等各種操作,然后檢查頁面是否產生了預期的反應。
這個過程就像是讓一個虛擬用戶按照劇本在網頁上進行操作,每一步都有明確的預期結果。如果某個按鈕應該在點擊后顯示一個彈窗,系統就會檢查彈窗是否確實出現了。如果某個表單應該在提交后顯示成功消息,系統就會驗證這個消息是否正確顯示。
為了確保評測的準確性,研究團隊還引入了邏輯斷言驗證機制。這就像是在每個關鍵步驟設置檢查點,不僅要看操作是否能夠執行,還要驗證執行結果是否符合預期。例如,在一個計算器應用中,不僅要檢查數字按鈕是否可以點擊,還要驗證計算結果是否正確。
在美觀性評估方面,系統采用了多層次的視覺質量分析方法。首先是低層次的特征比較,包括文本內容的相似度分析和視覺結構的對比。文本相似度分析使用了先進的光學字符識別技術,能夠提取頁面中的所有文本內容,然后計算與參考頁面的相似程度。視覺結構分析則使用了深度學習的特征提取技術,能夠理解頁面的布局、顏色分布、元素排列等視覺特征。
除了這些技術指標,系統還引入了高層次的語義評估。這部分由一個大型多模態語言模型擔任"專家評委",它能夠像人類設計師一樣從整體效果、用戶體驗、視覺和諧性等角度對頁面進行綜合評價。這個AI評委接受過大量高質量網頁設計案例的訓練,具備了較強的審美判斷能力。
最終的評分系統結合了功能性分數和美觀性分數,形成一個綜合的質量評價。功能性分數反映了網頁的實用性和交互正確性,美觀性分數反映了頁面的視覺質量和用戶體驗。兩個分數按照一定權重組合,得出最終的綜合評分。
這套評測系統的另一個重要特點是其高度的自動化程度。整個評測過程無需人工干預,能夠快速處理大量的測試案例,這為大規模的模型比較研究提供了可能。同時,系統還具備良好的可重現性,相同的輸入總是能夠得到相同的評測結果,確保了研究結果的可靠性。
四、28個頂級AI模型的全面較量:現實與理想的巨大差距
研究團隊對28個當前最先進的大型視覺語言模型進行了全面測試,這場測試就像是一次頂級廚師的廚藝大賽,參賽者包括了來自不同公司和研究機構的明星AI模型。測試結果揭示了一個令人深思的現實:即使是最強大的AI模型,在這項任務上的表現也遠未達到理想水平。
在所有參測模型中,表現最好的是OpenAI的GPT-5,獲得了36.35分的綜合評分。這個分數雖然在所有模型中排名第一,但距離滿分100分還有很大差距,就像一個學生在滿分100分的考試中只考了36分一樣。緊隨其后的是Anthropic公司的Claude-Sonnet-4思維增強版,得分為34.62分,以及字節跳動的Doubao-seed-1.6,得分為34.02分。
更令人擔憂的是功能性和美觀性之間的巨大差距。以表現最好的GPT-5為例,它在視覺美觀性方面得到了64.25分,這表明它已經能夠較好地重現網頁的外觀效果,生成的頁面在視覺上與原始網頁有一定程度的相似性。然而,在功能性方面,它只得到了24.39分,這意味著生成的網頁中大部分交互功能都無法正常工作。
這種差距就像是制作了一個外觀精美的汽車模型,看起來幾乎和真車一模一樣,但是引擎無法啟動、方向盤不能轉動、剎車也不起作用。用戶雖然能夠欣賞到美觀的界面設計,但卻無法進行任何有意義的交互操作。
開源模型的表現相對較弱,其中表現最好的是阿里云的Qwen3-VL思維增強版,得分為31.15分。大部分開源模型的綜合得分都在20分以下,這反映了開源社區在這一領域與商業模型之間仍存在較大差距。
特別引人注意的是,專門針對視頻理解任務優化的模型表現反而不如通用的多模態模型。例如,VideoLLaMA3-7B和InternVideo-2.5-Chat-8B這兩個視頻專用模型的得分分別只有13.67分和10.07分。這個現象表明,僅僅具備視頻理解能力是不夠的,要完成交互式網頁重建任務,模型還需要具備強大的代碼生成能力、邏輯推理能力和多模態信息整合能力。
研究團隊還發現了一個有趣的現象:配備"思維鏈"功能的模型版本普遍比基礎版本表現更好。例如,Claude-Sonnet-4的思維增強版得分為34.62分,而基礎版只有34.00分;Gemini-2.5-Pro的思維增強版得分為30.36分,基礎版為30.31分。這種改進雖然存在但并不顯著,說明僅僅增加推理步驟并不能從根本上解決問題。
從任務難度角度分析,研究團隊發現所有模型在處理靜態內容時表現相對較好,但一旦涉及交互邏輯就會出現明顯的性能下降。在最簡單的L1級別任務(主要是頁面滾動)中,GPT-5能夠達到61.85分,但在最復雜的L4級別任務(算法邏輯實現)中,得分驟降至25.26分。這種下降趨勢在所有模型中都非常明顯,表明當前的AI技術在理解和實現復雜交互邏輯方面還存在根本性的不足。
視覺復雜度對模型性能的影響相對較小,但仍然可以觀察到一定的規律。大多數模型在處理極簡布局時表現最好,隨著視覺復雜度的增加,性能會有所下降,但下降幅度遠小于交互復雜度帶來的影響。
五、深入剖析:AI在網頁重建中的核心挑戰
通過對實驗結果的深入分析,研究團隊識別出了當前AI模型在交互式網頁重建任務中面臨的幾個關鍵挑戰,這些挑戰就像是阻礙AI進步的幾座大山,需要逐一攻克。
首要挑戰是時間序列理解能力的不足。網頁交互本質上是一個時間驅動的過程,用戶的每個操作都會在特定時刻觸發特定的響應,而這些響應之間往往存在復雜的依賴關系。現有的AI模型雖然能夠處理視頻輸入,但大多數模型對于時間維度信息的理解還停留在較為淺層的水平。
這就像讓一個人觀看一段舞蹈視頻后要求其編寫舞蹈教程一樣。觀看者可能能夠描述舞者的動作和姿態,但要準確把握每個動作的時機、動作之間的連接方式以及整體的節奏感,則需要更深層次的理解能力。同樣地,AI模型需要不僅僅是"看到"用戶點擊了按鈕,還要理解這個點擊動作的時機、它與前后操作的關系,以及它應該觸發什么樣的響應。
第二個挑戰是狀態管理邏輯的復雜性。現代網頁應用通常維護著復雜的內部狀態,這些狀態會根據用戶操作動態變化,并影響頁面的顯示和行為。例如,在一個購物車應用中,添加商品會改變商品數量狀態,這個狀態變化會同時影響購物車圖標上的數字顯示、總價計算以及結算按鈕的可用性。
當前的AI模型在理解這種多層次、相互關聯的狀態管理邏輯方面還存在明顯不足。它們往往能夠理解單個操作的直接效果,但很難把握狀態變化在系統中的傳播過程和累積效應。這就像是理解一個復雜機械裝置的工作原理,僅僅知道齒輪會轉動是不夠的,還需要理解齒輪之間的傳動關系、動力的傳遞路徑以及整個系統的協調運作方式。
第三個挑戰是動態資源匹配的準確性。在實際的網頁開發中,頁面元素的顯示往往依賴于外部資源文件,如圖片、圖標、字體等。AI模型需要能夠準確識別視頻中出現的各種視覺元素,并將它們與提供的資源文件進行正確匹配。
這個過程面臨多重困難。首先,同一個資源在視頻中可能以不同的尺寸、角度或光照條件出現,增加了識別的難度。其次,某些資源可能只在特定的交互狀態下才會顯示,需要模型具備較強的上下文理解能力。最后,為了防止模型利用文件名信息作弊,所有資源文件都被重命名為隨機編號,這進一步增加了匹配的挑戰性。
第四個挑戰是代碼生成的完整性和正確性。即使AI模型能夠完全理解網頁的交互邏輯,將這種理解轉化為可執行的代碼仍然是一個巨大的挑戰。網頁代碼需要同時處理HTML結構、CSS樣式和Javascript邏輯,這三者之間存在復雜的相互依賴關系。
HTML負責頁面的基本結構,CSS控制視覺樣式和布局,Javascript實現交互邏輯和動態行為。任何一個部分的錯誤都可能導致整個頁面無法正常工作。而且,現代網頁開發通常需要處理異步事件、DOM操作、事件綁定等高級概念,這些概念對于沒有深入編程經驗的AI模型來說都是巨大的挑戰。
第五個挑戰是長上下文信息的有效利用。IWR-Bench中的任務通常包含較長的操作序列,平均每個任務包含約9個操作步驟,有些復雜任務甚至包含數十個步驟。AI模型需要在整個序列中保持一致的理解,并能夠利用前面的信息來指導后續的代碼生成。
然而,當前大多數模型在處理長序列時都會遇到注意力分散和信息遺忘的問題。就像人類在閱讀長篇小說時可能會忘記前面章節的細節一樣,AI模型也容易在處理長序列時丟失重要的上下文信息,導致生成的代碼缺乏一致性和完整性。
六、技術突破的啟示與未來發展方向
盡管實驗結果顯示當前AI模型在交互式網頁重建任務上還存在顯著不足,但這項研究為該領域的未來發展指明了重要方向。研究團隊的工作不僅揭示了現有技術的局限性,更重要的是為克服這些局限性提供了明確的路線圖。
首先,這項研究證明了基于視頻的交互理解是一個可行且有價值的研究方向。雖然當前模型的性能還不夠理想,但它們確實展現出了從視頻中學習交互模式的能力。這就像早期的飛行實驗雖然只能飛行幾十米,但證明了人類飛行的可能性,為后續的技術發展奠定了基礎。
在模型架構方面,研究結果表明未來需要開發專門針對時序交互理解的新型架構。傳統的視覺語言模型主要針對靜態圖像和文本處理進行優化,對于時間維度信息的處理能力相對有限。未來的模型需要更好地整合時間序列建模技術,能夠理解操作的時序關系和因果依賴。
這種新架構可能需要采用分層的處理方式:底層負責提取單幀的視覺特征,中層負責建模幀間的時序關系,頂層負責理解整體的交互邏輯。每一層都需要針對特定的任務需求進行專門設計和優化。
在訓練方法方面,研究表明需要開發更加有效的多模態學習策略。當前的模型往往在視覺理解和代碼生成之間存在脫節,無法有效地將視覺觀察轉化為可執行的代碼邏輯。未來的訓練方法需要更好地對齊這兩個模態之間的表示空間,建立從視覺感知到代碼實現的直接映射關系。
一個可能的方向是采用漸進式學習策略,先讓模型學會理解簡單的交互模式,然后逐步增加復雜度。這就像學習彈奏樂器一樣,先掌握基本的音符和節拍,然后逐步學習復雜的旋律和和聲。通過這種方式,模型可以在較低復雜度的任務上建立堅實的基礎,然后將這些基礎技能擴展到更復雜的場景中。
在數據構建方面,這項研究為未來的數據集建設提供了重要的參考框架。IWR-Bench的三維分類體系和詳細的注釋規范為構建更大規模、更高質量的訓練數據集提供了藍圖。未來的研究可以在此基礎上擴展任務的覆蓋范圍,增加更多類型的網頁應用和交互模式。
特別重要的是,研究團隊提出的自動化評測框架為該領域建立了標準化的評估體系。這個框架不僅能夠客觀評估模型性能,還能夠提供詳細的錯誤分析,幫助研究者識別模型的具體不足之處。這種標準化評測體系對于推動整個領域的發展具有重要意義。
從應用前景來看,一旦這項技術達到實用水平,將會帶來革命性的影響。普通用戶將能夠通過簡單的操作演示來創建復雜的網頁應用,大大降低了軟件開發的門檻。這就像從需要專業編程技能才能開發軟件,轉變為通過直觀的演示就能實現相同的功能。
在教育領域,這項技術可以幫助學生更好地理解網頁設計和交互概念。通過觀察AI從視頻中學習的過程,學生可以更直觀地理解網頁功能實現的邏輯,從而提高學習效果。
在軟件開發領域,這項技術可以作為原型設計和快速開發的有力工具。開發者可以先創建一個簡單的演示,然后讓AI生成初始的代碼框架,再在此基礎上進行進一步的優化和完善。
七、研究方法的創新價值與技術貢獻
這項研究在方法論上的創新為整個人工智能領域提供了重要的啟示。研究團隊不是簡單地將現有技術應用到新問題上,而是從根本上重新思考了AI學習網頁開發的方式,提出了一套全新的范式。
傳統的網頁代碼生成研究遵循的是"靜態到靜態"的映射思路,即從靜態截圖生成靜態代碼。這種方法雖然在某些場景下有效,但本質上忽略了網頁作為動態系統的核心特征。研究團隊提出的"動態到動態"映射思路,即從動態交互視頻生成動態交互代碼,更加符合網頁應用的本質特征。
這種思路轉變的意義不僅局限于網頁開發領域。在軟件工程的許多其他分支中,我們同樣面臨著如何讓AI理解動態系統行為的挑戰。例如,在移動應用開發、桌面軟件設計、甚至是物理系統建模等領域,都可以借鑒這種基于行為觀察的學習方法。
在技術實現層面,研究團隊開發的多模態評測系統具有重要的參考價值。這個系統成功地將主觀的網頁質量評估轉化為客觀的量化指標,為類似的評測任務提供了可借鑒的框架。特別是功能性評測和美觀性評測的分離設計,使得研究者能夠更精確地定位模型的具體不足之處。
評測系統中的"智能評委"設計也具有創新意義。通過讓大型語言模型擔任評審角色,系統能夠進行更加靈活和智能的評估,而不僅僅是機械的規則匹配。這種人機結合的評測方式在保證客觀性的同時,也具備了一定的主觀判斷能力,更加接近人類專家的評估標準。
在數據集構建方面,研究團隊提出的三維分類體系為復雜任務的系統化組織提供了有效的方法。這種分類體系不僅有助于任務的平衡分布,還能夠支持細粒度的性能分析,幫助研究者理解模型在不同類型任務上的表現差異。
特別值得關注的是,研究團隊在數據收集過程中采用的防作弊策略體現了嚴謹的科學態度。通過將資源文件重命名為隨機編號,研究者確保了模型必須依靠真正的視覺理解能力,而不是簡單的文件名匹配。這種設計理念對于其他需要評估AI真實能力的研究具有重要參考價值。
從實驗設計的角度來看,28個模型的大規模對比實驗為理解當前技術水平提供了全面的視角。這種全面的比較不僅有助于識別最優的技術方案,還能夠揭示不同技術路線的相對優勢和局限性,為未來的技術發展提供重要的參考。
研究結果中關于功能性和美觀性之間巨大差距的發現,也為整個領域指出了一個重要的研究方向。這種差距表明,當前的AI模型在視覺模仿方面已經達到了相當的水平,但在邏輯推理和系統性思考方面還有很大的改進空間。
八、對人工智能發展的深層思考
這項研究的意義遠遠超出了網頁開發這個具體應用領域,它觸及了人工智能發展中的幾個根本性問題,為我們理解AI的能力邊界和發展方向提供了重要啟示。
首先,這項研究揭示了當前AI在理解復雜系統方面的根本性挑戰。網頁應用雖然看起來相對簡單,但實際上是一個涉及多個組件、多種交互模式、多層狀態管理的復雜系統。AI模型需要同時理解系統的靜態結構和動態行為,這對模型的綜合能力提出了很高要求。
這種挑戰在現實世界的許多場景中都存在。無論是理解生物系統的運作機制、分析社會經濟現象的發展規律,還是預測復雜工程系統的行為模式,都需要AI具備類似的系統性理解能力。因此,在網頁重建任務上的突破可能為解決更廣泛的復雜系統理解問題提供重要線索。
其次,研究結果反映了當前AI在知識遷移和抽象推理方面的不足。人類開發者能夠從一個網頁的工作原理中抽象出通用的設計模式和編程概念,然后將這些概念應用到其他類似的場景中。但現有的AI模型在這種抽象和遷移能力方面還顯得相當有限。
這種局限性可能源于當前深度學習模型的基本架構特征。大多數現有模型本質上都是強大的模式識別器,擅長從大量數據中學習統計規律,但在形成抽象概念和進行邏輯推理方面還有待提高。未來的AI系統可能需要更好地整合符號推理和神經網絡計算,才能獲得類似人類的抽象思維能力。
第三,這項研究突出了多模態理解的復雜性。雖然近年來多模態AI取得了顯著進展,但這項研究表明,真正有效的多模態理解不僅僅是簡單地將不同模態的信息拼接在一起,而是需要深入理解不同模態之間的內在關聯和相互作用。
在網頁重建任務中,視覺信息、時序信息和代碼邏輯之間存在復雜的對應關系。AI模型需要能夠建立這些不同層面信息之間的精確映射,這要求模型具備更加精細的跨模態理解能力。這種能力的發展對于構建真正智能的AI系統具有重要意義。
第四,研究結果提醒我們關注AI評估方法的重要性。傳統的AI評估往往關注單一維度的性能指標,但這項研究通過引入功能性和美觀性的雙重評估,揭示了單一指標可能掩蓋的重要問題。這種多維度評估方法為設計更加全面和準確的AI評估體系提供了有益啟示。
從社會影響的角度來看,這項研究也引發了關于AI與人類協作關系的思考。當AI在某些任務上表現不佳時,我們不應該簡單地將其視為技術失敗,而應該思考如何設計更好的人機協作模式。在網頁開發場景中,AI可能無法完全替代人類開發者,但可以作為強有力的輔助工具,幫助降低開發門檻,提高開發效率。
這種協作模式的探索對于AI技術的實際應用具有重要意義。很多情況下,AI的價值不在于完全替代人類,而在于與人類形成互補關系,發揮各自的優勢,共同完成復雜的任務。
說到底,這項由上海AI實驗室團隊完成的研究為我們打開了一扇通往未來的窗戶。雖然當前的AI模型在交互式網頁重建任務上還有很多不足,但這些發現為我們指明了前進的方向。隨著技術的不斷發展,我們有理由相信,未來的AI系統將能夠更好地理解和創造復雜的交互系統,為人類的數字生活帶來更多便利。
這項研究的真正價值不僅在于它揭示了當前技術的局限性,更在于它為整個領域建立了新的研究范式和評估標準。正如任何開創性的研究一樣,它的影響將會在未來的歲月中逐漸顯現,推動人工智能技術向著更加智能、更加實用的方向發展。對于那些希望深入了解這項研究細節的讀者,建議查閱編號為arXiv:2509.24709的完整論文。
Q&A
Q1:IWR-Bench是什么?它與傳統的AI網頁生成評測有什么不同?
A:IWR-Bench是上海AI實驗室團隊開發的全新評測基準,專門用于評估AI從用戶操作視頻中重建交互式網頁的能力。與傳統方法只給AI看靜態截圖不同,IWR-Bench讓AI觀看完整的用戶交互視頻,包含點擊、輸入、滾動等操作過程,要求AI理解動態交互邏輯并生成功能完整的網頁代碼。這就像讓AI通過觀看烹飪過程來學會做菜,而不是僅憑成品照片。
Q2:目前最強的AI模型在IWR-Bench上表現如何?主要問題在哪里?
A:表現最好的GPT-5模型綜合得分僅為36.35分(滿分100分),存在嚴重的功能性和美觀性不平衡問題。GPT-5在視覺美觀性方面得到64.25分,說明它能較好地重現網頁外觀,但功能性分數只有24.39分,意味著大部分交互功能無法正常工作。這就像制作了一個外觀精美的汽車模型,看起來很像真車,但引擎無法啟動、方向盤不能轉動。
Q3:這項研究對普通人有什么實際意義?
A:一旦技術成熟,普通人將能夠通過簡單的操作演示來創建復雜的網頁應用,而不需要學習編程知識。比如你想做一個個人博客或小型電商網站,只需要錄制一段演示視頻顯示你希望的交互效果,AI就能自動生成相應的代碼。這將大大降低軟件開發門檻,讓更多人能夠參與數字創作,就像從需要專業技能才能拍電影發展到人人都能用手機制作短視頻一樣。





京公網安備 11011402013531號