![]()
12月12日,第八屆 GAIR 全球人工智能與機器人大會于深圳正式拉開帷幕。
本次大會為期兩天,由GAIR研究院與雷峰網聯合主辦,高文院士任指導委員會主席,楊強院士與朱曉蕊教授任大會主席。
作為 AI 產學研投界標桿盛會,GAIR自2016年創辦以來,始終堅守 “傳承+創新” 內核,是 AI 學界思想接力的陣地、技術交流的平臺,更是中國 AI 四十年發展的精神家園。過去四年大模型驅動 AI 產業加速變革,歲末年初 GAIR 如約而至,以高質量觀點碰撞,為行業與大眾呈現AI時代的前沿洞見。
本次峰會之上,香港科技大學講座教授、馮諾依曼研究院院長,IEEE Fellow賈佳亞教授親臨現場,為與會者們帶來了一場精彩紛呈的開場報告。
![]()
賈佳亞教授在會上先是回顧了馮諾依曼研究院成立前后,其帶領相關團隊從事的一些AI研究以及取得的成果。其中今年的一些最新技術成果,此前均未在公開場合正式披露:
1、2023年,發布了LongLoRA技術,成為全球第一個32K長文本上下文理解大模型技術;
2、2024年,推出 Mini-Gemini—— 該平臺在 GitHub 上收獲超 3000 個 Star,且為當時開源社區中性能最強的模型。其以文字系統為基礎,融入多模態理解能力,可實現高性能圖像理解與推理式圖片生成;
3、今年,推出 Mini-Gemini 新版本,該版本新增完整中文語音系統,支持長視頻理解、無樣本音色克隆及跨語言生成,解決中文語音系統混亂的痛點。
此外,智能圖像生成編輯技術成果豐碩:ControlNeXt輕量化操作可實現圖像風格轉換、動效生成等。
同時,研究院新推出了全球領先的智能圖像生成編輯統一系統DreamOmni2,有望成為在開源系統里唯一能跟Nano Banana對齊的系統。據了解,Nano Banana的研發投入了10萬張卡,投資規模超50億美金,而DreamOmni2僅由2名學生主導,用500張卡、耗時半年便完成開發。
回顧過去三年的研究探索,賈佳亞提出關鍵思考:
1、大模型智力是綜合多因素結果:神經元數量不代表更聰明,更重要的是神經之間的連接方式,包括大腦皮層的復雜度,以及大腦與其他器官的配合程度等。
2、因此未來大模型發展有兩個關鍵要點:當前Sacling Law是基本發展方向,但大模型發展需聚焦“改善神經元連接方式”,讓其在同等數量的神經上變得更聰明。從早期的卷積神經網絡,到后來的Transformer,都是在改變神經元的連接方式。
3、未來人工智能發展的兩大重心:一是訓練方法要從一次性學習轉為像人一樣的連續學習,二是要結合機器人、機械臂等作為人工智能的感知載體,彌補當前AI無實體的短板。
4、AI與大模型的未來發展模式:會走向感知機器與終身學習結合的訓練模式,該發展將在未來五到十年持續性發生,并會帶來巨大進步。
以下是賈佳亞院長演講的精彩內容,雷峰網作了不改變原意的整理與編輯:
大家中午好,我從事計算機視覺研究超過20多年,2000年進入香港,到現在20多年的時間。去年我從港中文轉到了港科大,我們建立了馮諾依曼研究院,研究院是今年5月份揭牌,成為了香港里程碑式的AI發展事件,包括香港特區政府財政司司長,見證了我們的開幕。
![]()
在短短半年的時間中,我們邀請了很多專家和領導對馮諾依曼研究院進行了訪問,看了我們很多的研究和進展,大家覺得很興奮,覺得這應該是香港未來發展得最快、最領先的AI團隊。
![]()
在這個團隊中,我們有大概超過30位的年輕教授在從事AI的各項研究。今天我就花點時間給大家介紹一下我基本沒有在公開場合講過的一些大型技術。
2023年,我們自己發布了LongLoRA技術,這是全球第一個32K長文本上下文理解大模型技術。
![]()
可以想象一下,2023年,雖然ChatGPT3.5已經有了很多大模型的能力,但很多大模型不具備長問答的能力,你只能問它一個很簡短的問題,它回答你的問題長度沒辦法超過50字或100字,這是2023年的狀態。當時我的學生以敏銳的嗅覺,察覺到了這個問題。
我們發布這個模型之后,在全世界得到了很多的關注和影響力,后來在整個領域中,所有的大模型開始推動長文本上下文理解。我們終于可以讓大模型在人類歷史上第一次開始讀一本書,并對這本書的內容進行分析,在此之前,沒有任何的大模型能夠真正讀一部非常長的文本并進行總結和歸納的,大概有四萬多個Token、兩到三萬字,它進行了回答。
![]()
但我們并不滿足,我們又提出了Mini-Gemini,這是GitHub上超過3000個Star的一個大產品。當時我們基于了文字系統,加入了我們的多模態理解能力,我們希望能夠做到非常強悍的圖像理解能力和推理式圖片生成。Mini-Gemini是去年發布的,當時應該是整個開源社區當中最強悍的模型。
![]()
它可以做很多事情,給大家舉幾個例子。今年,我們不滿足于去年的版本,我們做了一個新的版本。如果對人工智能或多模態系統感興趣的可以應用一下這個模型,它加入了音色克隆技術,在現有的開源大模型當中,不具備完整的中文語音系統,而這個模型具備完整的中文語音系統。
![]()
給大家舉幾個例子。它可以干什么事?它可以讀一個超長的音頻和個性化的音色,比如它可以看30分鐘長的TVB News或新聞聯播,然后它可以把新聞聯播里所有的內容進行歸納總結,用戶可以提問任何有關長視頻的問題,它的回答是可以基于語音的。
![]()
這是一個清華的公開課,90分鐘的時長,每一個想學大模型的學生想看這個視頻,是非常難受的事情,因為內容很長,需要大家專注的時間也很長。我們做了一個視頻的理解,希望用一個Attention機制,用戶看完這個視頻之后,你可以問它任何問題,然后大模型可以通過這個問題去回答所有的內容。比如,它可以用馬斯克、周杰倫、川普的聲音給你進行回答。這是一個完整的中英文音色,在當前階段非常具體、有用的中文語音庫存。
![]()
我們還可以做音色克隆,這是無樣本學習,你不需要在輸入的時候加入,我只輸入了大概2秒鐘的周杰倫的音色,它就可以復制出來。再比如鄧紫棋、太乙真人的音色,它是自動的,文字輸入進去,語音就輸出出來了,音色可以自己調節和生成。這就是大模型的當前階段,一方面它可以塑造出非常多創造性的事情,另一方面也可以用它做很多不同的事情。
![]()
另外,可以用它做跨音色、跨語言的東西,比如有一個講座,要求你用英文來進行講座,但你的英文并不好,或者需要你用法文,怎么辦?就用它來生成就可以了。
![]()
在這個過程中,我們也可以輸入一些非常有意思的其他音色,這里我們輸入了網紅馬寶國的音色,然后讓他讀了一段非常正經的文章。這一段的話非常難念,大家可以嘗試,中國很多開源模型是讀不好這段話的。現在它已經全部開源了,大家可以在網上做嘗試。
![]()
我們之前為什么做這件事情?因為我們發現在整個市場中,英文系統做得非常強大,而中文系統一直做得非常混亂,我們希望成為第一個把中文語音系統做得比較完整和完備的團隊,這是我們做這個事情的初衷之一。
![]()
再給大家看看我們做得非常有意思的創造性工作,非常直接,可以拿來做非常有意思的創造性效果。
比如大家可以輸入圖像,這個叫ControlNeXt,它可以生成完整的、真實的、自然圖像的表達,包括卡通圖像,或者是任何形式的圖像表達。我們可以把一張圖像變成任何的風格,比如版畫風格或中式風格。
我的一個學生非常希望看到靜態圖片能夠跳舞,讓它能夠動起來,我們用了一個簡單的模型就做了這個事情,ControlNeXt是非常輕量化的操作,不需要預訓練,也不需要你有5張卡或10張卡,你只需要有一個系統,就可以實現以上所有功能。
另外它還可以做超級分辨率,以前拍攝得非常模糊的圖片,都可以用它變清晰。這不是我們做出來的,是我們放出來這個系統之后,其他國內高校團隊用這個系統做的嘗試,發現它在超分方面的能力非常強悍,所以我們也把這個結果借鑒過來了。
![]()
這是我們最新出的全球領先智能圖像生成編輯統一系統(DreamOmni2),它強大到,我覺得是在開源系統里唯一能跟Nano Banana對齊的系統。大家知道,Nano Banana用了10萬張卡,投資規模在50億美金以上。我們這個系統大概就是2名學生,用了500張卡,在半年之內就做出來了。
![]()
這個系統的能力之強悍,證明了這個世界上在現有的AI研究中是絕對的聰明制勝。如果你的團隊有一個聰明的人,可能一個人能干一百個人的活。它的功能非常強悍,這個系統叫DreamOmni2,它可以做廣告設計、圖像編輯、虛擬試衣、一鍵美容、改變光照、產品設計,它的很多功能甚至比Nano Banana還強悍。
![]()
這是外部媒體對這個工作的報道,大家都覺得很震撼。一個很難的工作,就是把圖里的這盞油燈換成下面的這只狗。以前用photoshop,需要很長的時間。現在只需要說一句話,請將第一張圖里油燈換成第二張圖的狗,很快就可以完成,它可以做局部替換、局部光照姿態的融合。
![]()
這也是同一個例子,“請將第一張圖里的男人替換成第二張圖的女士。”,實際是非常難的,它涉及到每一個像素級的編輯和修改。右邊就是我們做出來的結果,可以看到它在效果上達到了專業美工三天才能干的事情,我們只花了大概10秒鐘,就實現了這個功能。
![]()
再比如這張圖上面小孩子哭的表情很有意思,我只是想把這個小孩子的表情轉移到上一張圖里,這是一個非常抽象的動作,但它也可以完成,這是非常抽象概念的轉移,大模型中的文本理解、圖像理解、像素編輯等領域,都具有極大的挑戰性。這是一個很難的問題,我們找到了辦法把這個問題解決了,也發表了論文,這也是開源的系統,大家可以嘗試修改,可以嘗試去玩。
再比如這張圖,我想把這個女士的發型改變一下,也是可以的,甚至連耳環的樣式都很相似,說明大模型對像素級的精準理解到了極致的狀態,這是非常難做的商業化水準的工作。
![]()
它還可以換衣服,比如你拍了張照片,你想知道這個衣服你穿著合不合適,現在大家都會進行網購,試衣服是很難的,不可能網上試衣服。以前試衣服,要人為編輯,現在我們可以“一鍵試衣”,也就一句話:把第一張圖里的衣服替換成第二張圖里的樣子,就完成了,是一張非常自然的圖像,質量達到了非常高的地步。
![]()
還有一些非常抽象概念的融合,比如上面這張貓的圖片,你非常喜歡,但是你只想改變這張圖的光線、色彩分布,這件事情是非常難做的,對人而言,這都是非常抽象的概念,但是我們這個系統,可以一鍵把光線這件事情進行理解,能夠把貓的照片,從一個明媚的早晨搬到一個歌廳里。
![]()
再比如你喜歡這張衣服,但不喜歡它的紋路,這又是非常難做的一件事情,因為你改變的不僅僅是換衣服,而是不換衣服,僅改變材質,這件事情可不可以做?也是可以的。如果達到如此精準的編輯狀態,你可以想象,這在全世界將有無限的可能性,不管是中國還是美國,我想絕大部分的設計師都面臨著失業,因為所有的事情都會被電腦替代掉。
再比如你有一輛非常好的跑車,但你覺得跑車的顏色不好看,你直接對它說:把第一張圖里的車換成第二張圖里的鼠標外觀,如果你感覺這個效果滿意,你再去4S店換你的車衣就好了。
![]()
再比如這個杯子,不改變樣式,只改變成下圖霓虹燈的樣子,這也是非常難的事情,系統對文字的理解已經到了極致的狀態,它可以區分出來什么是文字,什么是紋路,電腦的理解已經比人更深刻了。
我們也可以做女式的包包,以前需要設計師去設計圖像的外觀,現在你只需要把圖像輸入進去,就可以把紋路換成你想要的設計。這都是以前完全做不到的事情,不管你用什么大模型,不管用開源的、閉源的,不管一個月花一萬美刀還是一千萬美刀,你都是做不到的,我們這個月才完成這個事情。
再比如,你可以讓一匹站著的匹馬坐下,你也可以把一個雕像從玉的材質變成大理石的材質。
![]()
再比如把這只狐貍從最右邊的質感,變成最左邊水的樣子,也是可以完成的(中間圖效果),它可以變成非常真實、透明的、水材質的狐貍。
![]()
當你想把這個老人的姿勢從左邊的捂臉姿勢,變成右邊的握手姿勢,可不可以?也是可以做的,中間圖片就是呈現的效果,可以看到他的其他部分都不會發生改變。
這是我們這個月跟千問、GPT-4o、Nano Banana做的比較,在很多評測上我們超越了Nano Banana,這是難以想象的事情,因為我們只用了它的萬分之一的資源,達到了這個效果。人類的未來,很多時候不見得要拼資源或者拼誰有錢,有很多聰明人能力在這個過程中殺出來,用最少的資源實現最漂亮的效果。
![]()
不僅如此,我們還可以把有兩只在打拳的貓換成哈士奇在打拳。經常被很多人二創的《甄嬛傳》,我們可以對這類視頻再次進行二次創作,比如變成機器人給皇后捏肩。
我們還可以對圖像、視頻的生成做6~20倍的加速。你可以想象,這可以幫全世界節省多少資源。這個技術上了之后,對于每一個系統而言,可以節省95%的能源。
![]()
我們得到了非常多的榮譽和認可,得到了很多國內外媒體對我們的報道和認可。
![]()
在Hugging face上,我們有非常多的引用量。這是黃仁勛當時來我們實驗室參觀時拍的圖片,它可以識別出來誰是黃仁勛,下面這張圖可以識別出來哪些是人、哪些是機器。
![]()
最后跟大家做個總結。現在大模型的路徑對不對?這是我在這三年時間內非常深度的思考。
一方面,我們覺得大模型有非常強的創造力。另一方面,我們覺得大模型會產生很多幻覺。一方面,我們覺得大模型是非常高智商的。但是他又會犯很多錯誤。在早期的時候,他不會數數,可能會給人類生成 6 個手指頭,一些很簡單的操作他會犯錯,但一些很難的操作他也可以做到,這是為什么?
![]()
大家知道,人是很聰明的,人是世界上最聰明的動物,但世界上比人的大腦神經元更多的動物是什么?像大象、鯨魚,他們腦神經中的神經元比人類要多,但它們沒有比人更聰明。大家看著大象的腦袋那么大,神經元的總量肯定是比人類多的。但神經元的數量并不代表著它更聰明,因為智力是一個綜合、多因素的結果,所以不僅是數量,更重要的是神經之間的連接方式,包括大腦皮層的復雜度,以及大腦與其他器官的配合程度等等。
現在的大模型,在一路高歌猛進,沿著更大、更強的方向走的時候,我們需要從另一個角度思考,大模型做得更大這件事情,只是它其中的一個因素。另外一個因素是神經元的連接方式。包括我的團隊,我們所有學生以及所有年輕教授做的事情,我們考慮的就是如何改善神經元的連接方式,讓同等神經數量的大腦變得更聰明。
這兩個要點都非常重要,首先,Scaling Law 是基本方向,但是我們研究人員,或者說我們的業界和學術界現在做的事情是:考慮如何改變神經元的連接方式,讓它在同等數量上變得更聰明,這兩者我們都在做。
之前 Transformer 或卷積神經網絡,都是在改變神經元的連接方式。最早的計算機視覺我們叫卷積神經網絡,到后來的 Transformer,說到底,他們并沒有在改變神經元的數量大小,他們改變的是連接方式,也就是改變每一個神經元和另外一個神經元之間的連接方式,這個改變是天翻地覆的,讓整個大模型的智能提升了大概1萬倍。
相信我們未來繼續探索,還會有比 Transformer 更好的架構,能夠把智能再提升 1 萬倍。
![]()
未來,整個人工智能發展的重心是訓練方法。訓練方法是什么意思?現在大模型的訓練是一次性的,一次性學完1萬億到10萬億參數,而它未來的學習方式應該像人一樣,連續學習,像課程一樣,從小學一直學習到大學,這才是真正的學習方式,而不是像現在這樣讓它一次性學完,這是我們在研究過程中得到驗證的一個例子。
另外,今天我們看到很多教授講的機器人,我們在整個領域里,包括投資界比較熱門的機器人、機械臂,這是未來人工智能真正的載體。現在的人工智能是完全沒有載體的,它是一個虛擬的大腦,它沒有活動裝置,它不能像人一樣通過手臂、通過四肢去理解這個世界。
但未來如果加入了機器人的控制,人工智能的發展會越來越像人。而現在大模型和人之間真正的差距還是相當大的。我認為人工智能的未來發展重心是:一個是改變訓練方法,另一個是感知載體。
我覺得AI與大模型一定會走向感知機器與終身學習結合的訓練模式,這也是未來我們所有的學生、年輕人以及企業界未來發展的重心。而這個發展不會那么快,在未來五到十年的過程中都會持續性發生,但它的發生一定是不可避免的,同時一定會帶來巨大的進步。
這就是我今天帶來的分享,謝謝。雷峰網雷峰網





京公網安備 11011402013531號