
人工智能領域的前沿模型技術已經從文本處理拓展至視覺信息的深度理解與生成。(CFP供圖)
首席記者 吳吉
2022年,AI畫作《太空歌劇院》獲科羅拉多州博覽會數字藝術類冠軍,引發激烈爭論。時隔不過兩年多,AI生成畫作已經成了各大拍賣行競相追逐的熱門。不管藝術家是否接受這種新型藝術創作形式,人工智能領域的前沿模型技術已經從文本處理拓展至視覺信息的深度理解與生成,“文生圖”的模型也日臻普及。
那么,在現有的模型中,到底哪些能力較強呢?日前,香港大學經管學院蔣鎮輝教授團隊對15個專業文生圖模型和7個多模態大語言模型的圖像生成能力進行了全面評估。結果顯示,字節跳動的即夢AI和豆包以及百度的文心一言在新圖像生成的內容質量與修改任務中表現突出,位列第一梯隊。在接受記者采訪時,蔣鎮輝教授表示,國產大模型近兩年進步顯著,但呼喚更多原創的技術突破,而贏在未來的“法寶”就是人才。
國產模型整體表現驚艷
此次,蔣鎮輝團隊共對22個模型進行了測評,其中對模型圖像生成能力的測評主要基于兩大任務:全新圖像的生成和基于現有圖像的圖像修改。
在全新圖像的生成方面,團隊主要通過線上問卷從用戶處收集或者改編現有指令的方式建立內容質量測試集,這可有效保證指令來源的多樣性,同時貼近實際應用需求。團隊招募了多名具有美術專業背景的評價者,對22個模型的新圖像生成結果在圖文一致性、圖像合理可靠性和圖像美感三個維度進行了評價。結果顯示,在新圖像生成的內容質量方面,即夢AL、文心一言 V3.2.0、Midjourney v6.1、豆包、妙筆生畫、FLUX.1 Pr0位于第一梯隊。
相較于生成圖像,修改圖像的任務會更難一些。蔣鎮輝教授表示,在接受測評的22個模型中,只要有13個模型能完成修改任務,最終綜合排名位于第一梯隊的是:豆包、即夢AI、文心一言 V3.2.0、GPT-40、Gemini 1.5 Pro。“修改圖像的任務難度更大。我們還考慮到國內外模型的語言問題,盡量做到一比一翻譯,結果發現,與起步更早的國外模型相比,國產模型在修改圖像方面的性能更優異,這有些出乎我們的意料。”
在本次測評中,由字節跳動推出的即夢AI和豆包、百度的文心一言在新圖像生成的內容質量和圖像修改任務中均躋身第一梯隊,表現亮眼。但值得注意的是,同屬百度的文心一格在兩項核心任務的表現均不盡如人意。而當前火熱的DeepSeek最新推出的專業文生圖模型Janus-Pro在新圖像生成方面表現欠佳。“Janus-Pro表現不佳挺令我們意外的,”蔣鎮輝說,“這說明炙手可熱的DeepSeek并未在文生圖方面發力,還有較大的提升空間。”
AI文生圖應提示標識
在圖像的生成和修改方面,國產模型整體表現令人驚喜。不過不可忽視的是,在安全與責任方面,國外的模型更勝一籌。
蔣鎮輝介紹說,當前人工智能圖像生成能力的評估仍處于初步階段,現有評測榜單主要依賴自動化算法、大模型裁判和模型競技場等方法,普遍存在評價偏頗、公平性不足、視角單一等缺陷。特別是安全與倫理問題,現有的評價體系沒有給與充分的關注,無法全面地反映模型表現。因此,他們團隊特別注重安全與責任方面的衡量,而這一點在文生圖的應用場景里特別重要。測評結果表明,在新圖像生成任務測試中,雖然部分專業文生圖模型在內容質量方面表現優異,但在安全與責任方面的表現不盡如人意。這一現象反映了專業文生圖模型圖像生成能力的不均衡,也凸顯了一個關鍵問題:高質量的生成內容固然能夠吸引用戶,但如果缺乏足夠的安全性保障和倫理約束,這些工具可能會帶來更大的社會風險。
“以前說‘有圖有真相’,現在在AI的助力下,圖片都可以以假亂真,這給人們甄別網絡真相增加了更大難度。“蔣鎮輝表示,要對該維度進行準確測評的難度較大,團隊的題目涵蓋了偏見與歧視、違法活動、危險元素、倫理道德、版權侵犯以及隱私/肖像侵犯類型,但是比起一目了然的違禁元素,背后可能涉及的版權、隱私、肖像等侵犯行為更隱蔽,更難發現。在這一方面,GPT-40、通義千問 V2.5.0、Gemini 1.5 Pro的表現位于第一梯隊。
“模型的安全和責任,需要開發者在開發過程中就充分考慮,盡可能規避一切風險。”蔣鎮輝說,團隊建議開發者在追求技術突破的同時注重生成質量與安全責任的平衡。
日前,國家網信辦、工業和信息化部、公安部、國家廣播電視總局制定了《人工智能生成合成內容標識辦法》,將于今年9月1日起施行。其中一條明確規定:對AI生成的圖片,必須“在圖片的適當位置添加顯著的提示標識”。蔣鎮輝欣喜地表示,這一政策的出臺不僅可以提升大眾的分辨能力,也能敦促圖片生成者規范行為,有利于人工智能的健康發展。
圖像生成技術有待精進
圖像生產技術的革新不僅為內容創作、市場營銷和平面設計等傳統領域注入了全新的活力與創意,還為眾多新興領域的發展創造了無限可能。但是,雖然目前已經涌現出不少圖像生成的大模型,但蔣鎮輝認為,技術還不夠成熟。他表示,首先是圖像修改技術目前尚不盡如人意,這涉及到模型對于原圖的理解,也關系到與使用者的交互與調整,這是一個復雜的過程,需要技術的進一步精進;另一方面就是圖像與音頻、視頻的結合目前尚有壁壘。“如果以后能將多模態結合,輸出更多生動的內容,這將更有利于創作者使用。”蔣鎮輝說。
在此之前,蔣鎮輝教授團隊發布過《人工智能大語言模型圖像理解能力綜合測評報告》,此次又針對人工智能多模態圖像生成能力對模型進行了排名。與人工智能大模型打交道的過程中,蔣鎮輝表示自己最深的感受是:“人工智能技術的更迭太快了,國產大模型的進步十分顯著,這讓我們團隊都很驚訝。不過也要看到,在一些顛覆性技術方面,中國的企業和科研團隊還需要有更大的突破。我們在看到中國人工智能長足進步的同時,也期待看到更多原創的技術。”
在人工智能的全球競逐中,要想實現跟隨、并跑到超越的進步,蔣鎮輝認為最關鍵的因素就是人才。他說:“粵港澳大灣區有發展人工智能非常好的創新環境,關鍵是如何吸引人才、培養人才。未來人工智能的競爭,就是人才的競爭。這一點,粵港澳大灣區還需要長遠的布局和耐心的積累。”





京公網安備 11011402013531號