
(圖片來源:unsplash)
近期,一則關于“大模型測不出9.11和9.9哪個大”的消息引發討論。
當用戶問包括GPT-4o在內的國內外12款 AI大模型“9.11和9.9哪個更大”這樣一道小學生難度的數學題,最終結果中,竟然只有阿里通義千問、百度文心一言、Minimax和騰訊元寶4個答對,而ChatGPT-4o等8款大模型給出了錯誤的答案。
這意味著,大模型的數學能力較差,存在諸多問題亟待解決。
早前與鈦媒體AGI獨家對話時,上海交通大學重慶人工智能研究院(滬渝人工智能研究院)AI大模型中心主任齊鵬博士表示,盡管大模型潛力巨大,能處理復雜問題并具備學習泛化能力。但大語言模型可能由于模型架構限制,更像是“文科生”,缺乏理科能力。而且目前受限算力不足、文本數據不足、精確度和可靠性有偏差以及模型規模不夠大等問題,其智能水平仍在孩童級別,更像是一個“五歲的小孩”,難以處理復雜任務,“幻覺”長期存在。
齊鵬本碩畢業于清華大學,并在美國威斯康星大學完成博士學位,現任職于上海交大重慶人工智能研究院。齊鵬多年深耕數據科學、AI 等領域,參與多個國家級科技課題,擁有多項知識產權。
隨著ChatGPT風靡全球,過去一年多時間,齊鵬帶領上海交大重慶人工智能研究院AI大模型中心團隊,自主研發“兆言”大語言模型,并在今年3月SuperCLUE中文大模型智能體評測基準中位列全球第三、國內第二。
與此同時,今年7月,齊鵬帶領上海交通大學博士生莊少彬等人參加開源社區項目成功復現了類Sora文生視頻模型,采用先進的Latte時空解耦注意力架構,經過精心訓練,能夠在InternVid視頻數據集上生成長達16秒(128幀)的視頻,相比之前開源模型僅能生成3秒(24幀)視頻,性能提升了5倍(500%)。
7月12日,齊鵬、莊少彬二人與鈦媒體進行約2小時的獨家對話,圍繞Sora發展現狀以及大模型的發展所面臨的挑戰、行業落地情況,以及未來的發展方向等話題展開對話。
談及Sora技術帶來的影響,齊鵬對鈦媒體AGI表示,Sora更像一個新“錘子”,能夠解決多種問題。Sora文生視頻模型在視頻生成之外,還能在自動駕駛、物理世界模擬等多個領域發揮作用。而最直觀的應用就是視頻生成,用戶只需輸入文字描述,就能快速生成符合要求的視頻內容,提高了視頻制作的效率和便捷性。
談到行業落地,齊鵬指出,大模型在多個垂直行業都有廣泛的應用,但真正落地的案例卻相對較少。主要原因有兩點:一是大模型的數學能力和工程能力的不足;二是大模型作為機器學習范疇的一部分,其基于統計方法的本質決定了它無法做到100%的正確度。
展望未來AGI發展,齊鵬強調,人類社會正處于通往AGI的關鍵時期。盡管當前模型能力沒有達到AGI標準,但將來某一天,人們回顧這段歷史時,可能會意識到,ChatGPT讓我們正站在一個重要的歷史節點上。
“研究院的一個重要目標是實現技術的商業化落地,大模型中心目前專注于AIGC的落地應用,特別是‘最后一公里’問題,如何將研究成果轉化為實際的產品或服務,以滿足市場需求。盡管大模型智力可以不斷提升,從五歲、十歲到十八歲,甚至達到頂級專家的水平,但這樣的系統永遠需要配套的設施和工具來支持其運行和應用。設施研發成本可能相對較低,但它們在推動大模型的實際應用和社會價值方面起到至關重要的作用。”齊鵬表示。

上海交通大學重慶人工智能研究院AI大模型中心主任齊鵬博士
以下是鈦媒體AGI與齊鵬、莊少彬的對話整理:鈦媒體AGI:相比其他視頻模型,此次上海交通大學重慶人工智能研究院聯合研發復現類Sora文生視頻模型核心差異點是什么?
齊鵬:這個項目是由莊少彬博士帶領團隊研發的。團隊選擇使用全開源的數據進行模型訓練。團隊不僅開源了數據,還公開了訓練流程。這樣,其他研究者或開發者可以根據相同的步驟和參數設置,在自己的環境中重現模型的訓練過程,驗證模型的有效性和穩定性。
核心差異點主要表現在三方面:
第一,團隊使用全開源數據進行模型訓練意味著整個訓練過程是基于公開可訪問的數據集進行的。這樣的方式可以保證了訓練過程的透明度和可重復性,任何有興趣的人都可以使用相同的數據集來復現或改進模型。
第二,團隊采用了間接式的訓練方式,這種方式能夠在較低的計算成本下高效地訓練出模型。這種方法適用于大規模數據集和復雜模型,因為它們需要更長的訓練時間和更高的計算資源。通過使用間接式訓練,可以在不增加單個計算節點算力成本的前提下,通過增加計算節點的數量來縮短訓練時間。
第三,團隊還進行了一些底層的優化工作,特別是針對顯存開銷的優化。這些優化可以使模型能夠在集群或服務器上穩定地進行長視頻的訓練,提高了模型的訓練效率和可擴展性。
鈦媒體AGI:選擇開源模式的背后邏輯和原因是什么?
齊鵬:與商業化項目不同,團隊和開源社區合作的研究類項目采用開源模型的優勢是能夠吸引更多研發人員的參與。由于沒有版權和商業化的限制,任何對這個項目感興趣的人都可以輕松地獲取和使用模型,可以提出自己的改進意見或貢獻新的代碼。這種模式可以幫助模型的持續改進和優化,還可以加強跨學科、跨領域的交流與合作。
鈦媒體AGI:這款復現的類Sora視頻模型采用Latte時空耦合注意力架構,沒有與DiT架構產生聯系的原因是什么?
齊鵬:團隊研發類Sora模型架構并不是完全摒棄了Transformer或其他傳統模型,是在DiT的基礎上進行了擴展,加入了時間維度以支持視頻處理。這種新架構的考量可能是為了更好地適應視頻數據的特性,提高模型在視頻生成或處理任務上的性能。
鈦媒體AGI:DiT架構在生成長視頻方面存在限制,而Latte時空耦合注意力架構是否能解決這些問題?
莊少彬:目前團隊正在訓練的最好模型能夠生成最長16秒的視頻。這相較于之前基于unet架構的模型已經有了很大的進步,因為那時的模型通常只能生成兩到三秒的視頻。16秒并不是特別長的時長,但在目前在視頻生成領域已經是一個相對較長的記錄了。
視頻生成中連續性和連貫性的問題,這主要受到數據質量的影響。如果視頻數據中存在畫面跳變等不連貫的情況,那么訓練出來的模型也很可能會生成不連貫的視頻。此外,模型訓練時的幀率和分辨率對視頻生成質量的影響。如果模型只訓練在較低分辨率和幀率的數據上,那么它可能無法生成高分辨率和流暢的視頻。
為什么無法端到端生成一兩分鐘長度的視頻?端到端的一兩分鐘的視頻意味著上千幀甚至兩三千幀的數據,這需要上百上千倍的計算資源消耗。雖然Latte時空耦合注意力架構在理論上可以擴展到這樣的時長,但目前還沒有機構擁有足夠的算力和數據來支撐這樣的訓練。
鈦媒體AGI:目前來看,Sora到底誰在用?解決哪些問題?帶來哪些價值?
莊少彬:在C端,對于非專業的視頻制作者,如普通家庭用戶,Sora這類視頻生成模型能夠極大地降低視頻制作的難度。用戶只需簡單輸入文字描述,即可生成精美的視頻內容,從而更容易地參與到視頻創作中來。
在B端,對于專業的視頻剪輯師和創意人員,Sora能夠生成復雜的、或者一些天馬行空的視頻素材。專業人員可以在模型提供的素材基礎上進行微調和優化,從而提高了工作效率和創作質量。
Sora不僅僅用在視頻制作上,在自動駕駛、3D生成與建模、物理學研究等多個領域也有一系列的探索。自動駕駛系統需要準確預測周圍物體的動態變化,而Sora作為“世界模擬器”,能夠模擬和預測物體的運動軌跡,為自動駕駛系統提供更為精準的環境建模。
例如在自動駕駛領域,特斯拉的自動駕駛方案以及類似的高級駕駛輔助系統在技術上已經取得了顯著的進步,它們能夠實時感知周圍環境,包括車輛、行人、障礙物等,這是實現自動駕駛的基礎。Sora幫助自動駕駛系統提前做出決策,避免潛在的危險情況,如碰撞、追尾等。同時,通過預判物體的移動,系統還可以優化行駛路線和速度,提高交通效率,減少擁堵和排放。
總的來說,Sora降低了視頻制作的門檻,使得更多人能夠參與到視頻創作中來,無論是C端的非專業用戶還是B端專業視頻制作者都能從中受益。
齊鵬:Sora更像一個“錘子”,一種新工具,能夠解決多種問題的工具。Sora文生視頻模型在視頻生成之外,還能在自動駕駛、物理世界模擬等多個領域發揮作用。最直觀的應用就是視頻生成,用戶只需輸入文字描述,就能快速生成符合要求的視頻內容,提高了視頻制作的效率和便捷性。
很多時候,技術的發展并不是為了解決某個特定問題而進行的,而是在研究過程中意外發現了強大的解決方法。這種方法一旦成熟,就能夠廣泛應用于多個領域,解決一系列問題。
目前,Sora仍處于測試階段,并未廣泛公開使用。在中國,可能有一些內測或外測版本的應用案例,但數量相對較少,且主要限于生成短小的視頻或電影片段。由于這是測試版,很多情況下可能是免費提供的。如果未來開始收費,成本也是當前視頻制作費用的很小一部分,比如幾百元,從而極大地降低視頻制作的成本。
鈦媒體AGI:團隊在做Sora模型研發過程中遇到哪些挑戰?如何克服這些挑戰?
齊鵬:這個項目主要是和開源社區合作的,主要的研發工作是由莊少彬博士和一、兩名研發人員合作進行的。項目整體被分為了四個組,分別負責數據采集與打標、模型訓練、模型評測以及訓練提速和機器優化。
莊少彬:在模型訓練過程中,團隊面臨的最大挑戰是計算資源不夠。特別是在處理大規模數據和復雜模型時,對計算資源的需求非常高。為了更高效地利用有限的機器資源,項目組的算法團隊進行了大量的優化工作。
這些優化包括模型并行、流水線并行等高級優化策略,以及針對單個模型的顯存優化。
此外,團隊還針對視頻領域進行的優化,這樣可以使項目有明確的應用場景和目標領域,更好滿足項目的實際應用需求。
鈦媒體AGI:之前上海交通大學重慶人工智能研究院還與鄉村振興(重慶)研究院發布了鄉村振興農業大模型“兆言·兆豐”,為何要開發這種模型?
齊鵬:重慶作為唯一一個有農村場景的直轄市,為農業大模型的應用提供了豐富的場景和廣闊的空間。鄉村振興大模型利用了海量的網上數據和農科院的農業數據,這些數據為模型的構建和訓練提供了基礎,能夠更準確地反映農業生產的實際情況。目前,此項目是與政府機構、鄉村振興(重慶)研究院等多方聯合開發的。這種合作模式有助于整合資源、技術和資金,共同推動農業大模型的研發和應用。
鄉村振興大模型計劃打造14款,目前已有3-4款相關產品,通過大模型將專家的知識轉化為可普及、易理解的信息,解決農業生產、管理和民生中的問題,幫助農業從業者能夠像城鎮居民一樣方便地獲取和使用農業知識,助于縮小城鄉之間的信息差距,提高農業生產的效率和效益。
鈦媒體AGI:現階段,大模型技術的發展瓶頸是什么?
齊鵬:首先,明確團隊對大模型的定義是什么,是大語言模型。大語言模型是主流,核心在于知識和邏輯。隨著大語言模型的不斷發展,其智能水平可能會從五歲小孩的智商逐漸提升到十歲、十八歲甚至超人的水平。這一過程主要依賴于模型對知識和邏輯的掌握和應用。
與大語言模型不同,文生視頻模型是大模型的另一條線,不涉及復雜的知識和邏輯,而是更側重于對物理世界規律的理解和模擬。文生視頻建模這類模型能夠基于感知和經驗來預測和應對物理世界的變化,但缺乏高層次的邏輯理解和知識總結能力。
此外,還有多模態模型,這類模型能夠將文字、圖像、聲音等多種信息形式進行編碼并統一處理。多模態模型是未來的發展方向之一,它能夠更全面地理解和處理現實世界中的復雜信息。
目前,大模型目前進入平臺期,在智能水平上好像難以實現質的飛躍。我們還是相信更大的模型往往能處理更復雜的問題,具有更強的學習和泛化能力。一旦有一個模型能夠達到99.9%正確率,那么這種大模型將成為一種全新的生產力工具,能夠勝任各種任務。
大模型的發展存在算力不足、文本數據不足、精確度和可靠性有偏差以及模型規模不夠大等問題。這樣,使大模型“智商”還不夠高,更像一個五六歲小孩智商的水平,大模型的處理復雜任務的能力有限,無法達到人們期望的程度。
其次,由于大語言模型架構限制,大模型有點像“文科生”,它對語言的處理非常好,但是做數學、工程就就不太行。可以把大模型比作企業的“CEO或COO”。這個“CEO或COO”,雖然可能對技術不太懂,但能夠調動各種高技術的組件。
同時,國內的大廠和初創企業在發展大模型遇到的的困境,主要是因為投入成本巨大,而商業化又不足以支撐算力和數據持續的投入。
如果大模型的智能水平無法在短時間內實現顯著提升,那么發展應用便成為了一個可行的選擇。現階段的大模型發展,客戶需要在不同應用場景實踐中探索和提升。通過應用商業化,可以產生收入,進而支撐大模型的持續發展和優化。這既保證了項目的經濟可持續性,也為未來的技術創新提供了可能。
此外,大模型企業還可以通過融資來支持項目的發展。不過融資并非易事,需要看市場是否認可項目的潛力和價值。
鈦媒體AGI:市場對大模型熱情很高,但落地應用推進緩慢,與市場期待有誤差,為什么大模型應用推進緩慢?
齊鵬:原因有兩點:
第一,當前技術能力不足導致提升有限,降低了主動升級的積極性;
第二,新技術的應用需要新的硬件和算力支持,但各個企業準備不足,缺乏足夠的機房和智能算力資源來部署和運行大模型,使得大模型落地到垂直行業變得困難重重。第二個問題其實可以通過相應政策解決,如果企業可以信任政府投資的研究院或者算力中心對于數據安全的保證,就可以在建設自己的智能算力機房前開始大模型解決方案開發。
大模型,尤其是那些能夠生成高質量文本、圖像等內容的模型,通常需要大量的計算資源來運行。例如100萬用戶同時使用大模型時,每年的算力成本可能會上億,難以商業化。對于普通用戶來說,這樣高成本大模型應用產品可能難以承受,這也限制了C端應用的推廣。
現階段,解決方案可能包括采用更高效的算法、優化模型結構以減少計算量,或者利用云計算等分布式計算資源來分攤成本。
而當前大模型的智能體在某些方面還像是一個“五歲的小孩”,存在“智商”不夠高,發揮不穩定、容易產生幻覺等問題,這嚴重影響了用戶體驗和信任度。這些問題需要高準確性的應用場景,如政府或金融客服場景中是不可接受的。即便是在一些對準確性要求不那么高的咨詢或運維領域,當前的準確率如80%或60%也還未達到廣泛應用的臨界點。
提高智能體的性能和穩定性需要不斷優化算法、增加訓練數據的多樣性和數量、引入更復雜的模型架構等。同時,也需要加強實時監控和錯誤處理機制,以確保大模型在復雜環境下的穩定性。
圖像識別是多模態大模型應用中一個非常重要的領域,在預訓練模型基礎上,可以以極低成本開發新圖像識別模型,覆蓋眾多長尾場景,具有較大的市場潛力。盡管圖像識別有很多應用場景,但當前的圖像識別大模型仍然有精度低的問題,同時算力要求也相對較高。
此外,由于之前一代的人工智能,在圖像理解方面已經做得相對成熟,人們對大模型能夠產生的額外價值還沒有完全接受,這也影響了其推廣速度。
鈦媒體AGI:如何看待當前垂直行業大模型的產業創新,為什么落地的垂直行業案例很少?
齊鵬:在垂直行業落地方面,以制造業的人形機器人為例,人形機器人要達到家庭可用的程度,可能還需要五到十年的時間,這主要是因為它們在軟件上的泛化能力尚不足夠,同時硬件方面也需要進一步的研發和完善。
更實際的研究方向,就是專注于制造業場景中的機械臂泛化問題。雖然機械臂本身已經非常成熟,并且在市場上被國內外的主要制造商所占據,現有的機械臂缺乏足夠的泛化能力,它們不能靈活地適應多種不同的工作任務。這導致在實際應用中,每當需要機械臂執行新的任務時,都需要進行重新的編程,這在任務頻繁變化的情況下是不切實際的。
解決機械臂泛化問題的關鍵在于軟件開發,特別是那些能夠使機械臂處理更廣泛場景的軟件。預計在一兩年之內,通過軟件的優化和開發,機械臂的泛化能力將能夠得到顯著提升。
當然,要實現機械臂的泛化能力這一目標需要面臨一些挑戰,就是數據的不足。為了訓練出能夠處理多種場景的機械臂,需要大量的高質量數據來支持算法的學習和優化。
其實,大模型在制造業中可以作為一種智能體,能夠整體地調用不同的軟件。意味著,在制造業的復雜系統中,原本需要人工操作或編程連接的各種軟件,現在理論上可以通過大模型來實現自動化的調用和整合。
用戶只需通過語言或想法與大模型交互,大模型便能自動執行相應的程序,完成各種任務。但由于不同制造業公司的生產環境、系統和API各不相同,大模型在不同場景下的適配性成為一大挑戰。即使在一個場景中調優得很好的大模型,換到另一個環境也可能無法正常工作。因此,企業開發者需要針對具體場景進行精調,以提高大模型的性能和精度。
這一限制直接影響了大模型在制造業中的廣泛應用和深入發展。因為制造業往往涉及高度復雜和精細化的操作,需要高精度的計算和控制。如果大模型無法勝任這些任務,那么它就無法在制造業中發揮出應有的潛力。
除了大模型自身的能力限制外,系統間的兼容性問題也是制約大模型在制造業中應用的一個重要因素。不同公司或生產單位可能使用完全不同的系統,包括不同的軟件、硬件和API。這使得大模型在一個場景下調優后,很難直接應用于另一個場景,因為兩個場景的系統環境可能截然不同。這種系統間的差異性增加了大模型在制造業中應用的復雜性和成本。
其實有一種解決的辦法。針對制造業或者金融、零售等垂直行業,可以定義標準化大模型的接口。這些接口將明確大模型能夠提供的具體能力,使得所有系統都能夠通過這些接口來調用大模型的功能。這樣做的好處是,無論系統環境如何變化,只要它們遵循這些標準化的接口規范,就能夠與大模型進行無縫對接。
所以,通過定義標準化的接口,企業開發者可以大大降低大模型與不同系統之間的匹配難度,使得大模型能夠更加快速地適應不同的生產環境。標準化的接口有助于確保大模型能夠在各種系統中穩定運行,減少因系統差異而導致的兼容性問題。
總的來說,大模型在多個垂直行業都有廣泛的應用,但真正落地的案例卻相對較少。主要是是兩方面的原因:一是數學能力和工程能力的不足,大模型在實際應用中難以達到足夠的精度和穩定性。二是大模型本身作為機器學習范疇的一部分,其基于統計方法的本質決定了它無法做到百分之百的正確。
其實,人類的大腦結構也不是百分之百精確,但人的判斷往往足夠精確,能夠滿足大多數實際場景的需求。相比之下,大模型即使經過訓練,其精確度可能仍停留在95%左右,這在某些對精度要求極高的場景中可能不夠用。此外,大模型的數學能力相對較差,也限制了其在某些領域的應用。
如果想克服這些限制,需要意識到大模型配套設施的重要性。通過為大模型提供必要的配套設施和工具,可以彌補其數學和工程能力上的不足,從而使其更好地適應實際應用場景的需求。這種配套設施可能包括更精確的數據集、更高效的算法、更穩定的硬件平臺等。
鈦媒體AGI:為什么大模型會產生幻覺?
齊鵬:有時候是由于原始數據本身缺失或者存在問題,大語言模型在訓練過程中無法學習到正確的知識,因此無法做出正確的推斷。這種錯誤不是由于大語言模型本身的缺陷造成的,而是由于輸入數據的不準確性。
如果在一個假設的、所有信息都指向錯誤結論的環境中訓練大模型,那么這個大模型也會基于這些錯誤的信息做出錯誤的判斷。這強調了數據和環境對智能體和大模型性能的重要影響。
有時候大模型可能會生成看似有邏輯、有思想但實際上并不真實或準確的響應。這類似于5歲小孩經常會信誓旦旦的描述一些錯誤的記憶。
成人在處理信息和記憶時也經常出現幻覺或記憶錯誤。例如在庭審記錄、案件分析時候,當事人在非常嚴肅和重要的場合下,也可能因為各種壓力、誤導性信息等而產生錯誤的記憶或幻覺。
鈦媒體AGI:國內外大模型市場環境的差異化體現在哪里?
齊鵬:目前,國外在提升技術方面仍然保持著較強的信心,并沒有完全轉向應用發展。這可能與國外市場相對較為成熟和穩定有關,使得企業能夠有更多的資源和空間來專注于技術研發和創新。相比之下,國內市場則面臨著更為激烈的競爭環境,大部分大模型底座研發企業已經大規模轉向應用。
國內市場的競爭不僅體現在企業數量上,還體現在價格戰上。由于多家企業同時提供類似的服務,導致大模型的價格迅速下降,這使得企業難以通過提供服務來收回成本。而在國外,以ChatGPT為代表的企業能夠憑借其在技術上的領先地位和市場認可度,持續獲得收入并用于進一步的研發和創新。
在國內市場,由于價格戰的激烈和付費意愿的相對較弱,企業可能不得不將更多的精力放在開發新的應用上,以尋求商業化的突破。這種策略雖然能夠在一定程度上緩解企業的經濟壓力,但也可能導致企業在技術研發上的投入不足,從而影響其長期的競爭力。
鈦媒體AGI:未來AGI發展方向有哪些?
齊鵬:我認為,人類社會正處于通往AGI的關鍵時期。盡管現階段業界認為某些技術或模型沒有在通向AGI的正確道路上,認為這些技術或者模型不屬于AGI。但將來某一天,我們回顧這段歷史時,可能會意識到我們正站在一個重要的歷史節點上。
以特斯拉的自動駕駛技術為例,五年前人們可能還認為L4級別的自動駕駛技術需要一二十年才能實現,但現在這一技術已經取得了顯著的進展。這種偶然性的進步讓業界可以相信,真正的AGI也可能在不經意間就實現了。
莊少彬:AGI的理想狀態是什么?AGI應該不僅具備高階的思維能力,更重要的是能夠應用于實際生活中,特別是在產業界。
目前,人們已經看到了很多機器人和AI技術在實體設備上的應用,這表明人們正在努力將AI技術從計算機中解放出來,轉變為有形的、能動的實體。這一跨越對于AI技術來說是非常重要的,只有在實際應用中,AI才能創造出更大的價值。
鈦媒體AGI:除了DiT這條路線之外,AGI的發展是否還存在其他可能的路線或策略?AGI的實現路徑是什么?
齊鵬:在AGI發展過程中,人類需要有一種多元和包容的態度。如果把AGI比作一個班級中不同成績的學生作業,盡管學生們的能力有所差異,但都能完成一些最基本的事情。類似地,即使各架構在性能上存在差異,但它們都能完成一些基本任務,只是在高難度任務上能力有所不同。
尤其是,在大量數據和算力的支持下,不同的架構可能會通過增加參數量等方式來提升其基礎能力,使得它們都能表現出一定的水平。同時,當前大模型領域也有一些新的趨勢,如線性注意力機制等優化方法,這些方法旨在減少傳統Transformer模型的計算量,提升效率
對于AGI的最終實現路徑,其實沒有一條固定的路線,目前的各種模型和技術都有其優點和局限性。在AGI的發展過程中,需要多種架構和技術的不斷探索和融合。不同的架構和技術都會在這個過程中為AGI提供重要的參考和借鑒,推動其不斷向前發展。同時也需要關注模型的實用性和自我修正能力。
鈦媒體AGI:國內大模型領域研究創新與商業化落地之間如何進行平衡?
齊鵬:在創新研究方面,由于資金有限,研究院需要明確自己能夠努力達成的目標,而不是盲目追求那些需要大量資源的項目,如百度等大公司才能承擔的大語言模型。
其次,研究院團隊要選擇可以通過一定努力可以實現的、具有實際價值的研究項目。例如,團隊研發的基于Latte時空耦合注意力架構的類Sora模型,以16秒高清視頻生成為例,這是研究院在現有資源下可以努力達成的目標。同時,研究院也需要選擇一些可能需要較少資源的研究方向,如模型優化或配套應用等。
在商業化落地方面,研究院應該專注于AIGC的落地應用,特別是“最后一公里”的問題。這就意味著研究院需要關注如何將研究成果轉化為實際的產品或服務,以滿足市場需求,實現商業化落地。
盡管大模型的智商可以不斷提升,從五歲、十歲到十八歲,甚至達到頂級專家的水平,但這樣的系統永遠需要配套的設施或工具來支持其運行和應用。這些配套設施的研發成本可能相對較低,但它們在推動大模型的實際應用和社會價值方面起著至關重要的作用。
因此,國內AI領域的研究機構團隊應該主要專注于這些配套設施的研發,以支持大模型的運行和落地應用。
(作者|竇悅怡、林志佳,編輯|林志佳)





京公網安備 11011402013531號