近日,硅心科技(aiXcoder)助力國內頭部通信企業落地企業專屬大模型,通過四大創新方案,突破通用大模型“缺乏企業私域知識、不了解業務”的企業落地難題,實現代碼生成準確率提升25個百分點(從20%提升至45%),企業知識問答準確率提升18個百分點(從51%提升至69%)。
在通信行業數字化轉型加速的背景下,某大型通信公司率先將通用大模型引入生產實踐,期望大模型在企業知識問答、單元測試生成、代碼生成等真實場景中提供智能輔助,以提升研發效能。
然而實際的應用中,通用大模型因缺乏企業私域知識(如專有協議棧、設備交互邏輯等)而表現不佳:企業知識問答常常答非所問或泛泛而談;輸出缺乏業務邏輯支撐,可用性差;生成的代碼需工程師花費大量時間修改。
考慮到RAG(Retrieval-Augmented Generation,檢索增強生成)等通用方案難以實現深度業務推理。為此,企業選擇與硅心科技(aiXcoder)合作,將私域知識深度注入模型,構建企業專屬大模型。
具體方案包括:1)多維度綜合評估,選擇最優開源模型。2)企業私域數據治理,構建高質量訓練語料。3)增量預訓練+后訓練,訓練企業專屬大模型。4)以企業真實數據為準,構建企業級測評集。
方案實施過程中仍面臨諸多挑戰,硅心科技(aiXcoder)通過四大創新技術攻克難題,確保項目落地:
一、創新采用“大模型+小模型”策略。大模型支持通用場景,比如復雜的Agent主流程構建;小模型支持企業特定的領域化問題,在解決企業特定任務時會更精準、高效。兩者協同,既保證通用智能,又強化專業深度。
二、構建全鏈路私域數據治理體系。硅心科技(aiXcoder)對“原始需求-設計-開發-測試”等研發環節的企業數據和文檔,進行系統性打通與關聯構建,讓大模型在執行具體任務時,能參考研發全鏈路的相關知識,獲得全局理解能力,提升輸出結果的可用性。
三、創新融入工作流和Agent技術。企業核心業務智能化往往需要端到端的解決方案,但目前市場上并沒有能直接解決端到端問題的大模型。為此,硅心科技(aiXcoder)在訓練企業專屬大模型時,創造性融入了工作流和Agent技術。通過精心設計的任務編排與Agent協同,有效補齊端到端的能力短板。
四、利用AI輔助生成高質量訓練數據。企業內部的私域知識和數據關系非常復雜,且數據量不足以支撐模型訓練的需求。為此,硅心科技(aiXcoder)在嚴格遵循業務邏輯和安全規范的前提下,系統梳理和構建數據間的依賴關系,并利用大模型合成大量高質量、符合業務場景的訓練數據,有效解決數據瓶頸難題。
最終,企業專屬大模型應用到實際任務中后,效果超出預期:企業知識問答的準確率由原來51%,提升至69%;代碼生成準確率由原來的20%,上漲至45%。
不僅如此,企業專屬大模型訓練過程中所形成的數據治理框架、訓練路徑和方案都具備高度的可復用性。隨著底層模型迭代、技術演進和業務需求的變化,企業可以在現有框架上快速適應、調整和新增數據,大幅降低后續訓練成本,為企業在長期技術競爭中構建獨特優勢。





京公網安備 11011402013531號