文|常敏瀟 袁瀅靚
編輯|鄧詠儀
若是說成為開源模型天花板,是Llama大模型的運,那“慘遭泄露”,就是Llama要渡的劫。
2023年3月,Llama 2就因提前泄露,meta不得不以開源的方式發布模型。
如今,歷史再次重演。
太平洋時間7月12日,一名meta員工透露,meta計劃于當地時間2024年7月23日發布迄今為止Llama最大的參數規模版本:Llama 3.1 405B。他透露,405B將會是Llama系列中首個多模態模型。
然而,就在太平洋時間7月22日,預定發布時間的前一日,Llama3.1的模型和基準測試結果就在Reddit等技術社區上泄露,Llama 3.1的磁力鏈接(用于下載文檔的程序)已經在HuggingFace等社區中流傳。
從泄露的結果中看,Llama 3.1的性能,足以媲美OpenAI的GPT-4o!
有AI博主盛贊,Llama 3.1的發布,將又是扭轉AI界命運的一天:

△來源:X
泄露的基準測試結果顯示,Llama 3.1共有8B、70B、405B三種規模。參數量最小的70B模型 ,許多方面的性能也與GPT-4o不相上下。

△上圖為Llama 3.1 各版本與 OpenAI GPT-4o、Llama 3 8B/70B 的對比,其中,規模居中的70B版本,也在諸多方面超過了 GPT-4o。圖源:X用戶@mattshumer_
有網友指出,如果依據這個基準,Llama 3.1 405B ≈ GPT-4o,Llama 3.1 70B 則將成為能擊敗了OpenAI的首個輕量級模型、GPT-4o mini。

△圖源:X用戶@corbtt
不過,不少已經下載模型“嘗鮮”的網友發現,泄露版的Llama 3.1 405B,所有文件大小竟然約有820GB,所需內存是保留完整精度的Llama 2(約280GB)的近3倍。
這意味著,若非家里有礦,買得起足夠多GPU,個人開發者很難用自己的電腦把Llama 3.1跑起來。部分網友猜測,Llama 3.1并非面向個人,而是面向機構和企業。
還未官宣的Llama 3.1也被潑了盆冷水。不少網友倒苦水:Llama 3.1對GPU的要求太高了,不如隔壁OpenAI家的GPT-4o mini物美價廉。
△X上的網友評論。圖源:X用戶@_Talesh
功能迭代,指標優化,計算資源減少
根據泄露的模型信息,Llama 3.1相較于2024年4月19日發布Llama 3,在功能上有了更多的迭代,包括更長的上下文窗口、多語言輸入和輸出以及開發人員與第三方工具的可能集成。
數據訓練:Llama 3.1使用了公開來源的 15T+ tokens進行訓練,微調數據包括公開可用的指令調優數據集(與 Llama-3 不同!)以及超過 2500 萬個合成生成的示例。
多語言對話:Llama 3.1支持8種語言:英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語。雖然很遺憾沒有中文,但開發人員可以針對 8 種支持語言以外的語言對 Llama 3.1 模型進行微調。
上下文窗口:每個版本的上下文長度從8k擴展至128k,大致相當于模型一次能夠記住、理解和處理9.6萬字,幾乎是一整本原版《哈利·波特》。
許多網友躍躍欲試,讓Llama 3.1與模型“前輩們”一同競技,發現不僅是指標有了顯著提升,計算資源也節省不少。
基于網友的測試,與Llama 3相比,Llama 3.1的能力有顯著提升。其中human_eval和truthfulqa_mc1兩項能力進步明顯,意味著生成編程代碼的能力更強、生成問題答案時更具真實性。
同時,Llama 3的instruct(指令)模型相較于base(基座)模型,在提示學習、語境學習、高效參數微調等指標提升明顯。
這是合理的,因為base模型通常未經特定任務微調,而instruct模型經過專門訓練后,能遵循指令或完成特定任務。通常,instruct模型的指標表現更出色。
這讓人更加期待Llama3.1的正式發布。目前泄露的Llama3.1模型測試,結果僅僅針對base模型,而instruct模型表現可能會更佳!

△圖源:X用戶@thenameless7741
△圖源:X用戶@thenameless7741
令人驚訝的是,基準測試結果中,Llama 3.1 70B模型打平甚至擊敗 GPT-4o,Llama 3.1 8B模型則與Llama 3 70B模型性能接近。有網友猜測,這可能采用了模型蒸餾技術,即8B和70B的模型是由405B最大規模的模型簡化得出,讓大模型變“小”。
模型蒸餾技術可以看作學生向老師學習。大而強的模型(老師模型)是老師,較小且簡單的模型(學生模型)是學生。學生模型通過“模仿”老師模型來學習,使輸出盡可能接近老師模型的輸出,從而學到相似的知識和能力。
經過蒸餾訓練后的學生模型,可以減少模型大小和計算資源需求,同時又能保持較高的性能表現和相當的精度。

△圖源:Reddit
不是誰都跑得動,但推理價格很劃算
Llama 3.1到底會不會如愿開源,還是個未知數。但即便開源,想要用得起Llama 3.1,家里仍然得有礦。
想要跑得動Llama 3.1,最基礎的入門券,就是足夠的GPU。
泄露文件顯示,Llama 3.1 405B在H100-80GB類型硬件上的訓練時間為30.84M GPU小時。這意味著,假設每小時只用一張H100-80GB,運行Llama 3.1 405B就要花30.84M小時——等模型跑起來,要過3500年!

△圖源:Reddit
如果想要私有化部署,企業要想在一個月內順利運行Llama 3.1 405B,就要儲備起碼43000塊H100-80GB。按照4萬美金的H100單價算,使用Llama 3.1 405B的算力入場券,就高達17億美金,折合人民幣125億元。
不過好消息是,Llama 3.1的推理成本,可能會更便宜。
據Artificial Analysis預測,吞吐1百萬Tokens所需的成本,Llama 3.1 405B將比質量相似的前沿模型(GPT-4o 和 Claude 3.5 Sonnet)便宜,更具性價比。

△圖源:X用戶@ArtificialAnlys
除此之外,有網友通過源文件代碼猜測,Llama 3.1 405B可能會成為會員產品,用戶使用時需要付費。不過,真實情況如何,還需等待官方發布。
△圖源:X用戶@testingcatalog
(作者周鑫雨對本文亦有貢獻)
掃碼加入「智涌AI交流群」






京公網安備 11011402013531號