隨著生成式AI技術的爆發式增長,AI大模型開始滲透至手機領域,一線廠商已經把AI應用集成到各自最新的產品中,并且在以驚人的速度迭代。為了進一步提升大模型部署的效能,榮耀基于應用騰訊云TencentOS Server AI中提供的TACO-LLM加速模塊部署DeepSeek-R1等開源大模型,并應用榮耀企業內部等場景,穩定性、可靠性、推理性能均大幅提升。
在推理平臺場景中,榮耀側重關注框架效能、穩定性、運行狀態監控及應急預案等特性。使用TACO-LLM進行推理任務后,在DeepSeek-R1 滿血版場景下,相對于榮耀原始線上業務性能,TTFT(首Token 延遲)P95 的響應時間最高降低6.25倍,吞吐提升2倍,端到端延遲降低100%。在社區最新版本sglang場景下,TTFT P95的響應時間最高降低12.5倍。

騰訊云TACO-LLM之所以能夠對榮耀業務的性能提升如此明顯,主要的得益于多種投機采樣技術核心能力:大語言模型的自回歸解碼屬性無法充分利用GPU的算力,計算效率不高,解碼成本高昂。而TACO-LLM通過投機采樣的方式,從根本上解決了計算密度的問題,讓真正部署的大模型實現“并行”解碼,從而大幅提高解碼效率。
榮耀大數據平臺部相關負責人表示:“榮耀使用騰訊云 TACO-LLM 打造高性能的AI底座,部署穩定可靠,提升了性能加速體驗。”
TencentOS Server AI加速版中提供的TACO-LLM加速模塊,針對企業級AI模型私有化部署挑戰,對大語言模型業務進行了專門的內核運行優化,用于提高大語言模型的推理效能,提供兼顧高吞吐和低延時的優化方案,能夠“無縫”整合到現有的大模型部署方案中。





京公網安備 11011402013531號