文|AI大模型工場(chǎng),編輯|星奈
談到大模型私有化部署,很多人會(huì)首先想到數(shù)據(jù)中心,以為動(dòng)輒就得使用很多臺(tái)服務(wù)來(lái)支撐。一些中小企業(yè)或者應(yīng)用部門(mén),主要做知識(shí)庫(kù)和智能體方向的應(yīng)用,模型大小基本在70B以內(nèi)。只要搭配合理,用本地的專業(yè)工作站同樣可以訓(xùn)練推理,算得上極具性價(jià)比的方案了。
隨著OpenAI o1-preview的發(fā)布,大模型已經(jīng)越發(fā)成熟,距離走入企業(yè)生產(chǎn)應(yīng)用已經(jīng)很近了。但OpenAI提供訪問(wèn)的次數(shù)非常有限,這給企業(yè)用戶的AI應(yīng)用普及帶來(lái)了一定的費(fèi)用焦慮和困擾。為了應(yīng)對(duì)日益增長(zhǎng)的訪問(wèn)頻率需求,越來(lái)越多的企業(yè)用戶傾向于大模型的本地化部署。大模型本地部署可以極大地降低數(shù)據(jù)泄漏的風(fēng)險(xiǎn),而且系統(tǒng)響應(yīng)速度和實(shí)時(shí)性更強(qiáng),在一些需要快速反饋的場(chǎng)景里優(yōu)勢(shì)非常明顯,同時(shí)也能應(yīng)對(duì)企業(yè)個(gè)性化需求。
通過(guò)在傳統(tǒng)數(shù)據(jù)中心上進(jìn)行本地大模型部署的方法,會(huì)對(duì)IT設(shè)施帶來(lái)比較大的挑戰(zhàn),因?yàn)閺挠?jì)算資源來(lái)說(shuō),很多企業(yè)的數(shù)據(jù)中心計(jì)算資源很緊張,而且擴(kuò)展成本比較高,甚至有些中小企業(yè)還不具備搭建數(shù)據(jù)中心的能力。所幸的是,對(duì)于知識(shí)庫(kù)等企業(yè)級(jí)AI 應(yīng)用來(lái)說(shuō),完全可以用高配的AI工作站來(lái)應(yīng)對(duì)計(jì)算需求,以經(jīng)濟(jì)高效的方式減輕對(duì)數(shù)據(jù)中心計(jì)算資源的壓力,從而降低云服務(wù)的成本支出。
這次我們選用的是Dell Precision 7960 Tower,搭載了4張「NVIDIA RTX 5880 Ada 」顯卡,每張顯卡顯存48GB,相當(dāng)于在1臺(tái)工作站里就能最多有192GB顯存,完全可以部署Llama3.1 70B模型。

Dell Precision 7960 Tower
70B模型擁有700億參數(shù)量,在語(yǔ)言理解和生成方面具有顯著優(yōu)勢(shì),已經(jīng)能夠滿足常見(jiàn)的企業(yè)級(jí)AI應(yīng)用,比如知識(shí)庫(kù)應(yīng)用、對(duì)話問(wèn)答等,同時(shí)多任務(wù)處理能力也很強(qiáng),可以支持企業(yè)在一個(gè)統(tǒng)一的平臺(tái)上運(yùn)行多種AI 應(yīng)用。同時(shí),開(kāi)源大模型70B的開(kāi)放和靈活使得它在市場(chǎng)上具有廣泛的適用性,大大降低企業(yè)的使用成本。而且量化后的70B模型僅占70G的顯存,非常適合部署在工作站上,降低計(jì)算資源方面的成本。
購(gòu)置機(jī)器前我們做了相對(duì)完整的測(cè)試和驗(yàn)證,包括推理、訓(xùn)練和噪音測(cè)試,下面給大家分享一些數(shù)據(jù)。
一、測(cè)試環(huán)境硬件配置:
硬件平臺(tái):Dell Precision 7960 Tower
CPU: Intel(R) Xeon(R) w5-3433
內(nèi)存:64G DDR5 * 8
GPU: NVIDIA RTX 5880 ada * 4
軟件平臺(tái)環(huán)境:
操作系統(tǒng):ubuntu22.04
Driver Version: 550.107.02
CUDA: 12.1
軟件包:conda python3.10 torch2.4 vllm0.6.1
測(cè)試模型:
這次我們分別測(cè)試了單GPU、雙GPU以及四卡GPU的表現(xiàn)情況。并在不同的模型下進(jìn)行測(cè)試,模型參數(shù)分別為8B/13B/32B/70B,具體模型名稱如下:
meta-Llama-3.1-8B-Instruct
Baichuan2-13B-Chat
Qwen1.5-32B-Chat
meta-Llama-3.1-70B-Instruct
說(shuō)明:接下來(lái)的推理測(cè)試,會(huì)使用FP16或FP8格式進(jìn)行測(cè)試。在模型名稱的后綴,如果有FP8字樣,則使用的是FP8格式,否則使用的是FP16格式。
FP8是NVIDIA、Arm、Intel聯(lián)合推出的8位浮點(diǎn)數(shù)據(jù)格式,用于加速深度學(xué)習(xí)訓(xùn)練和推理。相對(duì)于常用的半精度FP16而言,F(xiàn)P8在不損失多少精度的情況下,將顯存的占用大小減少了一半,特別適合于將大模型部署于工作站上。FP8訓(xùn)練利用E5M2/E4M3格式,具備與FP16相當(dāng)?shù)膭?dòng)態(tài)范圍,適用于反向傳播與前向傳播。FP8訓(xùn)練在相同加速平臺(tái)上的峰值性能顯著超越FP16/BF16,并且模型參數(shù)越大,訓(xùn)練加速效果越好,且其與16-bits訓(xùn)練在收斂性和下游任務(wù)表現(xiàn)上無(wú)顯著差異。
推理框架:
vllm推理引擎來(lái)進(jìn)行測(cè)試,為最大程度利用GPU顯存,將其GPU utilization參數(shù)設(shè)置為0.99。
述語(yǔ)說(shuō)明:
Batch size: 推理或訓(xùn)練時(shí)輸入的數(shù)據(jù)批量數(shù)量,為1表示單個(gè)輸入,例如一段文字,為2表明同時(shí)進(jìn)行兩段文字的生成,以此類推。它代表的是用戶并發(fā)數(shù)量。
token/s:推理或訓(xùn)練的速度,每秒生成的數(shù)量。一個(gè)token是代表一個(gè)單詞或詞根,如果是中文的話,可能是一個(gè)字或一個(gè)詞。
AI 應(yīng)用場(chǎng)景測(cè)試列表

二、推理測(cè)試測(cè)試用例
為貼近真實(shí)情況,使用了兩種測(cè)試用例:
1、短輸入及短輸出,測(cè)試模型進(jìn)行閑聊的性能,具體輸入長(zhǎng)度為128,輸出長(zhǎng)度也為128;
2、長(zhǎng)輸入及長(zhǎng)輸出,測(cè)試大模型進(jìn)行知識(shí)庫(kù)應(yīng)用的性能,具體輸入長(zhǎng)度3584,輸出512。
為了消除誤差,每個(gè)測(cè)試進(jìn)行4次,并取平均值。
Dell Precision 7960 Tower搭載
單卡「NVIDIA RTX 5880 Ada」的推理測(cè)試結(jié)果
在垂類行業(yè)的智能客服場(chǎng)景下,我們一般會(huì)采用單卡「NVIDIA RTX 5880 Ada」的工作站來(lái)應(yīng)對(duì),模型大小集中在7B,8B,13B等。用戶的輸入普遍都比較短,AI的輸出也不長(zhǎng)。這種情況下,使用單卡推理效率是最高的,因?yàn)椴恍枰M(jìn)行卡間通信,能提高顯卡的利用率。
我們選擇測(cè)試的模型:Llama 3.1-8B-Instruct、Baichuan 2-13B-Chat-FP8
測(cè)試1: 短輸入及短輸出(input 128, output 128)
首先我們測(cè)試了Llama3.1 8B,在測(cè)試batch size達(dá)到256情況下,吞葉率最高可達(dá)約4454 token/s,同時(shí),總時(shí)延控制在合理的10秒左右,首字時(shí)延2.8秒左右。

為了對(duì)比,這次對(duì)Baichuan2-13B進(jìn)行了FP8的量化,其表現(xiàn)如下圖:在測(cè)試batch size 達(dá)到256的情況下,吞葉率最高可達(dá)2137 token/s,首字時(shí)延為2.48秒。

測(cè)試2: 長(zhǎng)輸入及長(zhǎng)輸出(input 3584, output 512)
在此測(cè)試用例中,首先測(cè)試了llama 3.1 8B-Instruct,我們可以將batch size 控制在16-32之間,其首字時(shí)延在4-9秒之間,吞吐率可在400-635 token/s。

再來(lái)看看百川13B (FP8量化)在長(zhǎng)輸入及長(zhǎng)輸出情況下的表現(xiàn)。

從上圖可以看出,batch size為8時(shí),首字時(shí)延僅為2.59秒,但當(dāng)batch size增加到16時(shí),首字時(shí)延則不成比例地來(lái)到15.11秒。因此 batch size 在單張顯卡的推理情況下不宜設(shè)置過(guò)大,建議控制在8到16之間。
Dell Precision 7960 Tower搭載
雙卡「NVIDIA RTX 5880 Ada」的推理測(cè)試結(jié)果
在企業(yè)級(jí)知識(shí)問(wèn)答場(chǎng)景下,我們通常選擇搭載雙卡「NVIDIA RTX 5880 Ada」的工作站。比如我們選擇用32B模型,其推理能力以及準(zhǔn)確性,對(duì)比8B、13B有較大的提升,而且雙卡可以極大地提高響應(yīng)速度和顯卡利用率。
我們選擇Qwen 1.5 32B作為測(cè)試模型,并做了FP8量化。
測(cè)試1: 短輸入及短輸出(input 128, output 128)

在雙卡用于短輸入短輸出的場(chǎng)景下,batch size 最高可設(shè)置到256,此時(shí)的吞吐率約為2587 token/s,首字時(shí)延僅為3.92秒。
測(cè)試2: 長(zhǎng)輸入及長(zhǎng)輸出(input 3584, output 512)

雙卡用于知識(shí)庫(kù)的應(yīng)用場(chǎng)景里,適中的batch size應(yīng)該是在 16-32之間,其首字時(shí)延為6-12秒,總時(shí)延30-50秒。
Dell Precision 7960 Tower搭載四卡「NVIDIA RTX 5880 Ada」的推理測(cè)試結(jié)果
70B模型無(wú)論是在準(zhǔn)確性或者推理方面,都達(dá)到目前主流大模型的水準(zhǔn),能廣泛適用于智能體以及知識(shí)庫(kù)應(yīng)用,適合于企業(yè)的知識(shí)問(wèn)答、效率級(jí)AI或RPA的賦能等場(chǎng)景。
這次我們選擇Llama3.1 70B-Instruct 模型來(lái)測(cè)試,并做了FP8 量化。
測(cè)試1: 短輸入及短輸出(input 128, output 128)
在4卡「NVIDIA RTX 5880 Ada」的加持下,batch size為256的情況下,吞吐率高達(dá)1730 token/s,平均總時(shí)延為27秒左右,首字時(shí)延8秒左右,可以說(shuō)是非常理想。

測(cè)試2: 長(zhǎng)輸入及長(zhǎng)輸出(input 3584, output 512)

由于輸入token較長(zhǎng),首字時(shí)延會(huì)成比例增長(zhǎng)。測(cè)試結(jié)果反映,在batch size為1的情況下,首字時(shí)延僅為1.4秒,同時(shí)吞吐率為32 token/s,當(dāng)batch size增長(zhǎng)到8時(shí),首字時(shí)延來(lái)在6.68秒,總時(shí)延達(dá)到29.5秒,吞吐率則高達(dá)179 token/s。從實(shí)際使用情況來(lái)看,Batch size 控制在8以內(nèi)的情況下,使用體驗(yàn)相對(duì)較好。
三、訓(xùn)練測(cè)試
「NVIDIA RTX 5880 Ada」具備48GB顯存,特別適合于進(jìn)行大模型的微調(diào)任務(wù),這次我們使用了Llama-Factory對(duì)搭載不同數(shù)量「NVIDIA RTX 5880 Ada」 GPU的Dell Precision 7960 Tower進(jìn)行了訓(xùn)練任務(wù)的測(cè)試,結(jié)果如下:

對(duì)于8B模型,我們使用一張「NVIDIA RTX 5880 Ada 」就足夠 Lora訓(xùn)練,其平均功耗達(dá)260W,即算力利用率可達(dá)91%。
對(duì)于13B模型,雙卡即可做Lora訓(xùn)練,其算力利用率也高達(dá)92%。
對(duì)于32B和70B大小的模型,我們可用四卡來(lái)訓(xùn)練(因?yàn)檫@兩模型參數(shù)較大,在現(xiàn)有192G顯存中無(wú)法使用FP16來(lái)加載,所以我們使用QLora的方式進(jìn)行微調(diào)訓(xùn)練),在多卡通信的情況下,算力利用率仍然高達(dá)82%以上。
8B 模型全參微調(diào)
得益于4卡工作站高達(dá)192GB的超大顯存,我們可以進(jìn)行8B模型的全參微調(diào)。
我們使用了deepspeed框架進(jìn)行多卡訓(xùn)練,并配置為zero3的模式,測(cè)試過(guò)程相當(dāng)順利,其訓(xùn)練的吞吐率接近Qlora的表現(xiàn),達(dá)到67.4 token/s的水平,在alpaca 1k數(shù)據(jù)集上,訓(xùn)練3個(gè)epoch,也僅花了30多分鐘。
四、噪音測(cè)試

考慮到辦公環(huán)境的靜音要求,這次我們特別對(duì)Dell Precision 7960 Tower工作站進(jìn)行了噪音測(cè)試。
在訓(xùn)練測(cè)試過(guò)程中,4張顯卡平均利用率80-90%的情況下,我們靠近工作站出風(fēng)口,測(cè)得平均56分貝的水平。在推理測(cè)試中,測(cè)得接近50分貝的水平。
總體上噪音控制得非常好,相當(dāng)安靜,從實(shí)際感受來(lái)說(shuō),基本上對(duì)辦公室工作沒(méi)有影響。
總結(jié)
目前此階段企業(yè)級(jí)AI應(yīng)用,最常見(jiàn)的就是基于知識(shí)庫(kù)以及智能體方向的應(yīng)用,也就是本次測(cè)試中使用到的input 3584/ouput 512的測(cè)試用例。即便是比較大規(guī)模的70B模型,搭載4卡「NVIDIA RTX 5880 Ada」的Dell Precision 7960 Tower也能支撐并發(fā)高達(dá)8個(gè)用戶的訪問(wèn),且用戶體驗(yàn)不會(huì)下降。在此配置下,平均每個(gè)用戶生成答案的總時(shí)延僅為30秒,也就是說(shuō)平均每分鐘可提供多達(dá)16次訪問(wèn)能力,每小時(shí)則能提供約1000次用戶訪問(wèn)能力,可以支撐中小型企業(yè)的日常應(yīng)用需求。
對(duì)于有海量數(shù)據(jù)或文檔,用戶數(shù)量也比較高的企業(yè)來(lái)說(shuō),建議使用私有數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)。因?yàn)檫@種方案,可以省去在做推理時(shí)的知識(shí)外掛,從而提高并發(fā)訪問(wèn)能力。而Dell Precision 7960 Tower,也能滿足此要求。即使是70B的大模型,其在input 128/output 128的測(cè)試用例中,并發(fā)能高達(dá)256次,總時(shí)延僅為27秒。也就是說(shuō),在最理想的情況下,每小時(shí)可提供高達(dá)3萬(wàn)多次的訪問(wèn)。
除了實(shí)用之外,Dell Precision 7960 Tower 超級(jí)靜音的優(yōu)勢(shì)對(duì)于沒(méi)有機(jī)房的企業(yè)團(tuán)隊(duì)簡(jiǎn)直過(guò)于友好!對(duì)于在做項(xiàng)目測(cè)試驗(yàn)證、并且想突破企業(yè)數(shù)據(jù)中心訪問(wèn)限制的小伙伴們來(lái)說(shuō),也是一個(gè)高效實(shí)現(xiàn)AI自由的選擇!





京公網(wǎng)安備 11011402013531號(hào)