北京智源人工智能研究院副院長、總工程師林詠華
出品|
作者|鄭松毅
12月19日,智源研究院發布并解讀國內外100余個開源和商業閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項評測結果。
本次評測依托于智源研究院于2023年6月上線的大模型評測平臺Flageval,目前已覆蓋全球800余個開閉源模型,超200萬條評測題目。
以語言模型為例,主觀評測重點考察模型中文能力,結果顯示字節跳動Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五。
發布會后,圍繞AI大模型發展現狀、未來趨勢、及產業應用機會等問題,北京智源人工智能研究院副院長、總工程師林詠華,與等媒體圍坐在一起聊了許久。
作為有著20年經驗的AI行業“老兵”,林詠華從IBM中國研究院到投身于智源,她的研究重心仍是推崇開源生態,鼓勵AI牌桌上的玩家從“競爭”轉向“競合”,共謀發展之道。
回頭來看,從ChatGPT打響這場AI競賽的“第一槍”算起,至今已有兩年。
兩年中,賽道上引領和緊跟的選手頻繁換位,大語言模型也逐漸在向多模態大模型演進。從整個行業來看,當下目光所聚之處不再僅是關注技術突破,而是都在想辦法做出“接地氣”的AI應用。
在林詠華看來,“大語言模型經歷兩年的迭代已經進入成熟期。當下,或是說下一階段的發展重點將是多模態大模型。在新一輪競賽中,互聯網大廠有流量和數據的明顯優勢。”
幾日前,OpenAI前首席科學家伊爾亞公開發言稱,“因數據資源受限,當前AI模型預訓練方式即將走向終結。”
對此,林詠華持相反觀點。她認為,“不是可用數據不夠,而是還有很多‘數據孤島’沒有打破。Facebook、meta等平臺的眾多數據還沒被看到,大量視頻數據還沒有被很好地運用。”
她判斷,“2025年,構建能完成更復雜任務的AI Agent(智能體)將是熱點方向。同時,會有更多基于文生圖、文生視頻的應用出現。”
以下為對話精編:
媒體:國內外的大模型評測榜單很多,排名情況參差不齊。您認為有必要統一一個評測標準嗎?
林詠華:能統一當然是最好的,能省去很多重復性的工作。這也是包括智源在內努力的方向,但坦白說難度很大。
媒體:這類偏理論的評測結果,對產業應用指導意義大嗎?
林詠華:出榜的核心意義,是在于想讓所有人能看到模型的優勢和不足。從機構的角度出發,是秉承嚴格、公正、專業的態度來評測。但出于一些局限性,的確不能斷言榜單中的第一名就是最好的模型。
榜單的意義在于為用戶提供參考價值,用戶可以根據自家產品需求選擇適合的模型使用。
媒體:從評測過程來看,有發現今年的大模型市場發生了怎樣的變化嗎?
林詠華:語言大模型的數量在減少,有越來越多的多模態大模型出現。
語言模型已經進入“深水區”,第一梯隊的語言模型可以說已經做的很成熟了,想把水平再大幅度提高不容易。不是光拼參數和數據就能解決的,而是要依賴于更多深入創新。
反觀多模態大模型,目前還處于基礎能力提升階段,有很大發展空間。此外,具身智能等新興領域也依賴于多模態大模型,實現對物理世界的理解和推理能力。
到2025年,預計多模態大模型會層出不窮。
媒體:前幾天,OpenAI前首席科學家伊爾亞提到,“因數據資源受限,現在的AI預訓練方式即將走向終結”,您怎么看?
林詠華:我不同意這一觀點。統計顯示,Facebook、meta、推特上面的數據量是互聯網上能公開搜索到的數據量的5至6倍,然而這里的很多數據還沒被看到,“數據孤島”問題還未解決。另外,還有大量的視頻數據沒有被很好地運用。
媒體:從發布的評測結果來看,豆包模型在幾個榜單中的排名都比較靠前,是互聯網大廠的模型研發能力在大幅提升嗎?
林詠華:互聯網大廠有兩方面優勢,流量和數據。
大模型需要有更多用戶使用,才能起到“數據飛輪”的作用。大廠有流量,這是天然的優勢。
另一方面,對文生圖、文生視頻來說,像字節、快手等大廠的優勢在于數據。他們本身有短視頻平臺,積累了更多高質量數據。
媒體:在多模態大模型這一輪新競賽中,相較于互聯網大廠,像“AI六小虎”及其他初創企業的機會在哪?
林詠華:多模態模型有不同的訓練方法,比如主流的是用語言基礎模型加上視覺模型進行拼接。如何更好地完成拼接、預處理、后處理等工作,都是機會點。
現在來說,大多數模型訓練都是基于現有模型,不需要完全從頭開始,比的就是誰更有創新能力。
媒體:之前大家都在喊著追AGI(通用人工智能),而現在似乎都轉頭追向了應用。現在還有人在追求實現AGI嗎?
林詠華:當前市場分為兩派,大多數廠商覺得自家模型已經到達一定能力水平,需要盡快做出落地應用。有少部分的廠商和機構還在追求AGI的路上往前走。
坦白來說,追求AGI的成本很高,頭部巨頭廠商和機構做的比較多。當然,做應用嘗試同樣也很重要。現在更像是有分工地追求AGI。
媒體:今年很多企業在說做AI應用,但至今似乎還沒有特別亮眼的產品出來。您對明年AI應用發展趨勢的判斷是什么?
林詠華:AI應用做的如何要看模型發展到了什么階段。今年大多AI應用是以語言模型為基礎,陸續開始發展更復雜的應用能力。
2025年,基于語言模型肯定會有更多AI Agent(智能體),能完成更復雜的任務,這是明年的熱點。
另外,隨著多模態模型的發展,2025年會出現更多基于文生圖、文生視頻的應用。



京公網安備 11011402013531號