全球頭部開源模型方的共同選擇,印證了一款底層框架的硬實力。趨境科技與清華共同開源的KTransformers,已成為Qwen、Kimi、智譜AI等多個主流大模型發布首日的推薦推理引擎,其工程實踐與兼容性也被多家一體機產品線采納,成為被開發者、廠商與開源社區廣泛復用的共建式底層框架。
技術與生態雙認可:成功入選 “計算機系統領域奧斯卡” SOSP 2025
KTransformers 是一個高性能異構推理框架,專注于高效利用底層 GPU、CPU、內存等多樣化算力,讓大模型在更低算力、更靈活的硬件架構上高效運行。其論文《KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models》成功入選 “計算機系統領域奧斯卡” SOSP 2025,該頂會過去幾十年間見證了虛擬化、分布式文件系統等無數里程碑式技術成果的首次亮相,此次入選標志著 KTransformers 的技術實力獲得全球頂尖認可。
11月6日,月之暗面發布Kimi-K2-Thinking 模型后,KTransformers迅速完成全面適配,支持用戶在單卡環境下完成推理任務,2卡環境下完成LoRA微調任務,大幅降低部署與定制化門檻。同時,趨境科技也已完成該模型在昇騰NPU上的全面適配,提供完善的全國產化推理解決方案,進一步拓寬其應用場景。
推理與微調雙高效:KTransformers+SGLang實現高性能推理部署
在推理部署層面,KTransformers與主流推理框架SGLang于10月達成合作,雙方架構合入同一分支。在Kimi-K2-1TB的模型推理任務中,用戶僅需簡單安裝SGLang與KTransformers CPU內核,下載官方模型及量化權重,即可通過一條命令啟動服務,且僅需單張消費級 GPU+CPU。這一合作融合了GPU+CPU異構推理創新模式與全GPU傳統推理模式,推動大模型推理向更高性能、更低成本演進,邁向更廣泛的產業落地。
![]()
在微調部署層面,KTransformers與LLaMA-Factory深度集成,支持LoRA等輕量級微調方法,僅占用約41 GB顯存+2T內存,就能實現46.55 token/s的微調吞吐量。傳統上,LoRA 微調千億模型成本高達數百萬,而趨境的異構微調能力將資源需求降低到單個消費級 GPU(如 RTX 4090)起,讓高校、中小型實驗室、初創公司甚至個人開發者都能參與大模型定制。該方案在 DeepSeek-14B 模型上展現了超過傳統方案 1.8 倍的吞吐、顯存占用降低 82%,是消費級顯卡上微調超大參數 MoE 模型的唯一可行方案。
對趨境科技而言,KTransformers承載的是 “普惠頂尖AI智能與隱私” 的價值理念。大模型時代需要更廣譜的推理基礎設施路線,趨境已與多個國產 CPU、GPU硬件平臺合作,推進全國產高性價比方案;為數十家行業開發伙伴提供算力底座,讓更多團隊用得起、調得動大模型。今天的KTransformers,已讓大模型推理脫離高端算力壟斷;未來,趨境將繼續推動 AI 能力普惠,讓大模型真正融入各類業務場景。





京公網安備 11011402013531號