Next Gen
歡迎來到“Next Gen”。人工智能的邊界每日都在被拓展,一群富有遠見卓識的青年學者正站在浪潮之巔。我們追蹤并報道這些 AI 領域最具潛力的明日之星,展現他們在科研前沿的突破性工作,以及對未來智能時代的獨到見解。他們是誰?他們如何思考?他們又將把 AI 帶向何方?與我們一同發現那些正在定義未來的 AI 新生代。
“我覺得 benchmark 要么你足夠難,難到模型都沒辦法解決,要么你足夠貼近現實生活。”
當 OpenAI 的 o4-mini-high、Google 的 Gemini 2.5 Pro 等前沿模型在困難編程題上集體拿到 0 分時,這條標準被直觀地驗證了。給出這組讓人意外的成績,是LiveCodeBench Pro——一個由普林斯頓大學準博士生柴文浩與團隊構建的算法競賽基準。
![]()
圖丨柴文浩(柴文浩)
出身數學競賽的柴文浩,正用自己的視角重估 AI 能力的真實邊界。當行業沉浸在大模型的刷分比賽里時,他選擇另一條路徑:把測試做“難”,把系統的結構性短板照得更清楚。LiveCodeBench Pro 只是他探索的一角;從能理解一小時長視頻的MovieChat,到對多模態統一模型的反思,這位年輕研究者希望從技術的底層機制上發問:下一步該怎么走,才算向前?
![]()
從遙感圖像到視頻理解
柴文浩的 AI 研究之路,始于一次數學建模比賽。2020 年左右,還在本科階段的他參加數學建模比賽,遇到了一個令他困惑的任務:遙感圖像語義分割。當時他對深度學習一無所知,只掌握一些基礎數學知識,面對這個現在看來屬于計算機視覺基礎任務的問題束手無策。
但正是這種困惑成為了他學習的動力。他開始自學卷積神經網絡(Convolutional Neural Networks,CNN)的原理,掌握 PyTorch 深度學習框架和 U-Net 網絡架構。憑著一股鉆研勁頭,他硬是依靠自己電腦的 CPU,一點點地訓練出了一個模型。“當看到自己寫的代碼,真的能在一張張復雜的遙感圖上準確地標出不同區域時,那種震撼是難以言喻的。”
這次經歷,成為了他學術道路的啟蒙。從這個起點出發,柴文浩的研究方向在不斷演進。他先是聯系校內導師做科研,從人體姿態和運動追蹤等傳統視覺任務開始,逐漸轉向視頻生成和編輯等更具挑戰性的領域,最終聚焦于視頻理解與語言模型的結合。
而 2022 年 12 月 ChatGPT 的發布成為他研究方向又一個關鍵節點。敏銳地意識到這一技術突破的革命性意義后,他開始思考大語言模型(Large Language Models,LLMs)在視覺領域的應用潛力。最初的想法相對樸素:將圖像轉換為文字描述,然后基于純文本進行問答。但隨著 LLaVA 等開創性工作的出現,他認識到可以直接將預訓練的 CLIP 視覺編碼器與語言模型連接,僅需訓練一個輕量級的投影層就能實現靈活的多模態理解。
這個發現讓柴文浩看到了視頻理解的新機遇。當時的視頻模型只能處理 4 幀或 8 幀,“我覺得那并不是真正的 video,只是幾幀 image”。于是他開始著手定義長視頻理解這個任務,并在微軟實習期間開發了 MovieChat——第一個支持一小時長視頻理解的模型。
![]()
圖丨相關論文(arXiv)
![]()
突破視頻理解的邊界
進入多模態研究領域后,柴文浩將目光投向了一個當時鮮有人涉足的難題——長視頻理解。在 2023 年,主流的視頻模型大多只能處理幾秒鐘、甚至只有 8 幀的超短視頻片段,而他主導的 MovieChat 項目,成為了全球首個能夠理解一小時級別長視頻的 AI 模型。
MovieChat 的核心創新在于其獨特的記憶機制設計。受到 Atkinson-Shiffrin 記憶模型的啟發,柴文浩設計了一個包含短期記憶和長期記憶的系統。系統采用滑動窗口來提取視頻特征,將其轉換為 token 形式后逐幀輸入到短期記憶中。當短期記憶達到預設長度時,最早的 token 會被移出并整合到長期記憶中。
這種設計的巧妙之處在于 memory consolidation(記憶整合)算法。系統會計算相鄰幀之間的余弦相似度,選擇相似度最高的幀對進行合并,通過加權求和的方式減少 token 數量,同時保持關鍵信息。這讓 MovieChat 能夠在 24GB 顯卡上處理超過 10000 幀的視頻,相比其他方法有著萬倍的內存效率優勢。
在當時,業界甚至還沒有一個公認的標準來衡量長視頻理解的能力。為此,柴文浩和團隊不僅開發了模型,還同步構建并發布了 MovieChat-1K benchmark,這是學術界第一個專門用于長視頻理解的基準測試數據集。為了推動整個領域的發展,他們基于這一研究成果,在 CVPR 2024 上參與舉辦了長視頻問答挑戰賽(Long-Term Video Question Answering Challenge),吸引了超過百名研究者參與,共同探索這一前沿領域。
![]()
圖丨顯存占用(GB,y 軸)與幀數(x 軸)的對比(arXiv)
不過,后來柴文浩也對 MovieChat 所采用的壓縮方法進行了反思。他認為不能簡單假設視頻序列是稀疏的,每個信息片段都可能具有重要價值。他舉例說,如果觀看一個有兩個人走過的視頻,但系統丟棄了看似“不重要”的背景信息,那么當被問及視頻中有幾只狗時,就無法給出正確答案了。
這種思考促使他轉向 sparse attention(稀疏注意力)等新的架構探索。稀疏注意力的核心思想是保留所有信息,僅在訪問時進行選擇性激活,從根本上避免了信息丟失的問題。目前他正在同時探索線性注意力(linear attention)和稀疏注意力兩種技術路線,希望找到在長序列處理中更有前景的方案。
如果說 MovieChat 是從理解的角度處理長視頻序列,那么柴文浩的另一項工作 AuroraCap 則是從標注的角度處理這個挑戰。在 PikaLabs 開發視頻生成模型的工作中,柴文浩和團隊發現,如果要實現高效的大規模標注,同樣需要降低序列長度來提升效率。
![]()
圖丨相關論文(arXiv)
AuroraCap 的核心創新在于突破了傳統視頻描述的長度限制。與以往 benchmark 中普遍采用的單句描述不同,AuroraCap 能夠生成數百詞的詳細描述,涵蓋視頻中的場景變化、人物動作、情感表達、環境細節等多個維度。
這種詳細描述能力的實現依賴于其所引入的 Token Merging 的技術。傳統的模型在處理視頻時,需要分析每一幀畫面的每一個小區塊(Patch),計算量巨大。而 AuroraCap 則會在模型內部,利用一種二分圖軟匹配算法(bipartite soft matching)來尋找那些在視覺上高度相似的區塊,并將它們合并成一個更具代表性的超級 token,從而大幅減少需要處理的信息量。這使得 AuroraCap 在處理視頻時,能夠在保持 95% 性能的同時將 token 數量減少到原來的 5-10%。
然而,一個能夠生成長篇描述的模型,也帶來了一個新問題:如何評價這些長描述寫得好不好?傳統的評價指標,如 CIDEr 或 BLEU,主要基于詞頻統計,對于評估長文本的邏輯、結構和細節準確性顯得有所不足。為此,柴文浩和團隊專門構建了一個全新的高質量視頻詳細描述基準測試——VDC(Video Detailed Captions)。
VDC 包含超過 1000 個精心標注的結構化視頻描述,其將視頻描述分解為四個維度:相機運動(Camera)、背景設置(Background)、主要對象(Main Object)和詳細描述(Detail),從而更全面地評估模型對視頻內容的理解能力。
且還團隊提出了一個名為 VDCscore 的智能評估體系。它借鑒了人類做閱讀理解的思路,先將標準答案分解為多個簡短的問答對,再讓待評估的模型去它自己生成的描述中尋找這些問題的答案;最后,再由 AI 裁判來評判這些答案的準確性,從而給整段描述打分。
這種“出題-作答-閱卷”的自動化流程,為長文本描述的質量評估提供了一個更可靠、更細粒度的標尺。實驗證明,VDCscore 與人類的判斷高度一致(皮爾遜相關系數高達 0.86),遠超傳統指標。在 VDC 這個新考綱的檢驗下,AuroraCap 的 VDCscore 達到了 38.21,顯著優于此前的其他模型,證明了其在生成高質量、長篇幅視頻描述方面的領先能力。
![]()
用基準測試探索 AI 智能邊界
隨著研究的深入,柴文浩開始思考一個更根本的問題:我們如何才能準確地衡量一個AI 模型的“智能”水平?他認為,一個好的評測基準(benchmark)至關重要。
“一個好的 benchmark,要么足夠難,能夠觸及當前 AI 能力的上限;要么足夠貼近現實,能夠真實反映它在實際應用中的表現。”
LiveCodeBench Pro項目正是他踐行“足夠難”這一理念的產物。他與來自多所頂尖高校的奧林匹克競賽獎牌得主合作,共同構建了一個高難度的算法推理測試平臺。該平臺收錄了 584 個來自 Codeforces、ICPC 及 IOI 系列賽事的高質量問題。為了保證評測的公正性,項目特意規避了容易被訓練數據污染的 LeetCode 題目,并采用持續更新的模式,確保模型面對的是最新的挑戰,以此最大程度地減少數據泄露的風險。
![]()
圖丨相關論文(arXiv)
在這種高難度的題目下,當前模型的局限性被清晰地暴露了出來。在“困難”級別的問題上,所有參與測試的前沿大模型,正確率均為 0%。即便將難度下調至“中等”級別,模型的表現依然不理想:o4-mini-high 的通過率為 53.5%,而 Gemini 2.5 Pro 僅為 25.4%。這表明,當前 AI 在處理需要高度原創性思維和復雜邏輯推理的任務時,能力仍有顯著不足。
值得一提的是,最新發布的GPT-5 Thinking 在 LiveCodeBench Pro 上取得了零的突破,并在多個子集上取得了最好的結果。
![]()
圖丨各個模型在 Livecodebench Pro 上的通過率(arXiv)
柴文浩指出,這一結果也反映了當前許多測試“智能”的基準的局限性。他表示,大多數數學題本質上是計算題,模型可以通過“學習”大量的定理和解題模式來應對,但這并不能完全等同于人類的智能。相比之下,需要從零開始構建證明思路的數學難題,或是設計全新算法,才是真正的挑戰。算法競賽的獨特優勢在于,它要求模型提供一個形式化的算法解決方案,這個方案必須通過所有未知的測試用例,這實際上是要求 AI 給出一個問題的通解(general solution),而非僅僅針對幾個已知案例的特解(specific solution)
值得一提的是,LiveCodeBench Pro 團隊正在探索讓 AI 自己出題和驗證的可能性。團隊在研究中發現,AI 的做題能力最弱,驗證題目正確性的能力最強,而出題能力介于兩者之間。基于這個觀察,他們希望通過讓模型自己出題、自己驗證的循環過程,來提升語言模型的整體能力。
![]()
學界應該做一些更 fundamental 的創新
在微軟、PikaLabs 等頂尖 AI 公司的實習經歷,以及對 OpenAI 等前沿機構的實地探訪,讓柴文浩對學術界和工業界在 AI 浪潮中的不同角色,有了更為深刻的理解。
“最直觀的感受就是算力上的差距”,他坦言,“工業界,特別是像 OpenAI、meta 這樣的頂級團隊,他們所擁有的計算資源和數據積累,已經和學界不在一個量級上了。”這種差距,決定了兩者在研究范式上的根本不同。工業界更傾向于利用龐大的資源,不斷將模型的能力推向新的高度;而學界,則更應該專注于那些更具根本性的、探索未知邊界的研究。
“學界應該做一些更 fundamental(基礎)的創新”,柴文浩認為。這包括探索全新的模型架構,比如他目前正在深入思考的“統一模型”(Unified Model)。他指出,目前很多所謂的多模態模型,本質上還是將一個現成的視覺編碼器和一個語言大模型用一個“轉接頭”(投影層)簡單地“縫合”在一起。這種方式雖然有效,但并沒有實現真正的深度融合。
他理想中的“統一模型”,遠不止于此。首先,他對于目前將圖像粗暴地切成一個個小方塊(Patch),再像處理文字一樣送入 Transformer 的做法提出了質疑。
“文本天然具有序列性,但視覺信息未必如此”,他認為,或許存在比“Patch 化”更原生的方式來讓模型理解圖像。這一切的核心,在于一個更智能、更高效的 Vision Tokenizer 方案,它能根據圖像和視頻的復雜度,自適應地決定用多少信息量來表達,而不是千篇一律地“一刀切”。這,正是他眼中屬于學術界應該去啃的“硬骨頭”。
當我們處理好了視覺本身的事情之后,才能談論“深度的融合”,即視覺和語言部分應該共享絕大部分的參數和計算過程,而不是各自為政。否則,現在的視覺語言模型不過是在大語言模型上打的補丁。
![]()
多做有意義的事
“多做有意義的事,多讀、多想、按興趣走。”這是柴文浩給年輕研究者的建議。他自己也是如此——從遙感圖像到長視頻理解,從生成模型到 AI 評測基準,每一步都帶著好奇心和探索欲。
對于即將開始的普林斯頓博士生涯,他已經有了更進一步的規劃,在導師劉壯(Zhuang Liu)教授的指導下,他坦言自己可能會逐漸從純粹的計算機視覺領域,轉向更通用、更底層的研究方向。柴文浩表示,自己對即將到來的博士研究生涯感到興奮。
“我可能會去做一些更 general 的問題,不只是局限于視覺,也不局限于語言,”他在采訪中提到。他將投入更多精力去探索那些能夠同時服務于多個模態的基礎性問題,比如全新的模型架構設計,或者探尋數據與模型之間更本質的關系。
這條探索基礎范式的道路,或許不如此前的工作那樣能迅速產出亮眼的應用,但柴文浩認為,這正是他希望為整個機器學習社區做出的貢獻。這,也是他未來幾年將要專注的方向。
參考資料:
1.https://wenhaochai.com/
2.https://arxiv.org/abs/2506.11928
3.https://arxiv.org/abs/2410.03051
4.https://arxiv.org/abs/2307.16449





京公網安備 11011402013531號