![]()
新智元報道
編輯:LRST
當(dāng)算力受限、數(shù)據(jù)參差,如何訓(xùn)練出高效可用的端側(cè)模型?鵬城實驗室聯(lián)合清華不僅給出了答案,更將每一步都開源共享。
如果實驗室只有國產(chǎn)算力、有限資源與開源數(shù)據(jù),能否玩轉(zhuǎn)端側(cè)模型的預(yù)訓(xùn)練?
鵬城實驗室與清華大學(xué)PACMAN實驗室聯(lián)合發(fā)布了鵬城腦海?2.1?開元?2B(PCMind?2.1?Kaiyuan?2B,簡稱開元?2B)模型,并以全流程開源的方式回應(yīng)了這一挑戰(zhàn)——從訓(xùn)練數(shù)據(jù)、數(shù)據(jù)處理框架、訓(xùn)練框架、完整技術(shù)報告到最終模型權(quán)重,全部開源。
![]()
模型鏈接:https://huggingface.co/thu-pacman/PCMind-2.1-Kaiyuan-2B
數(shù)據(jù)集:https://huggingface.co/datasets/thu-pacman/PCMind-2.1-Kaiyuan-2B
技術(shù)報告:https://arxiv.org/abs/2512.07612
數(shù)據(jù)處理框架:https://github.com/thu-pacman/Kaiyuan-Spark
訓(xùn)練框架:https://github.com/thu-pacman/kaiyuan-mindformers
![]()
此次開源不僅為國內(nèi)研究者提供了一條可復(fù)現(xiàn)、可迭代的技術(shù)路徑,也展現(xiàn)了在國產(chǎn)計算平臺上實現(xiàn)高效、穩(wěn)定預(yù)訓(xùn)練的完整解決方案。
開元?2B的訓(xùn)練依托鵬城腦海 2計算平臺,數(shù)據(jù)處理基于華為鯤鵬920,訓(xùn)練系統(tǒng)基于華為昇騰 910A。
由于昇騰910A僅支持FP16精度(類似于NVIDIA V100),訓(xùn)練穩(wěn)定性成為首要挑戰(zhàn)。
為此,研究團隊在 Qwen3?1.7B 的架構(gòu)基礎(chǔ)上,引入了三明治范數(shù)(Sandwich Norm)與軟裁剪(Soft Clipping)兩項關(guān)鍵技術(shù)。
三明治范數(shù):在Transformer每層前后保留歸一化層,有效控制梯度傳播中的數(shù)值范圍
軟裁剪:通過對輸出logits應(yīng)用tanh非線性變換,將數(shù)值穩(wěn)定在合理區(qū)間內(nèi),防止訓(xùn)練發(fā)散
![]()
![]()
![]()
加上三明治范數(shù)和軟裁剪前后的數(shù)值穩(wěn)定性對比
這些技術(shù)不僅使訓(xùn)練在FP16環(huán)境下保持穩(wěn)定,也為后續(xù)國產(chǎn)平臺上的大規(guī)模訓(xùn)練提供了重要參考。
開源數(shù)據(jù)
去重、評價與高效利用
當(dāng)前開源預(yù)訓(xùn)練數(shù)據(jù)規(guī)模已達TB級別,來源多樣、質(zhì)量不均,如何從中篩選出高質(zhì)量部分并制定混合策略,是訓(xùn)練優(yōu)質(zhì)模型的基礎(chǔ)。
開元?2B面對兩個核心問題:
如何從海量數(shù)據(jù)中篩選高質(zhì)量子集?
如何在不同數(shù)據(jù)集之間建立統(tǒng)一的質(zhì)量評價標準?
全局去重的高效實現(xiàn):Kaiyuan?Spark框架
研究團隊開發(fā)了Kaiyuan?Spark數(shù)據(jù)處理框架,采用樹狀流水線設(shè)計,全程YAML配置管理,易于復(fù)現(xiàn)與擴展。
結(jié)合諸葛弩計算框架進行本地加速,在 MinHash 去重任務(wù)中實現(xiàn)端到端2.5倍的加速比,高效完成TB級數(shù)據(jù)的全局模糊去重。
分位標定(Quantile Benchmarking)
為解決數(shù)據(jù)集之間質(zhì)量標簽不可比的問題,團隊提出分位標定:通過設(shè)計小規(guī)模探針實驗,構(gòu)建數(shù)據(jù)質(zhì)量分數(shù)與下游任務(wù)表現(xiàn)之間的映射關(guān)系。
![]()
分位標定流程示意圖
具體做法為:從不同數(shù)據(jù)集中按質(zhì)量分位數(shù)抽取多個子集,然后使用小規(guī)模模型進行訓(xùn)練測試,最后根據(jù)下游任務(wù)表現(xiàn)反向標定各數(shù)據(jù)集的質(zhì)量區(qū)間。
該方法成本低、可遷移,為后續(xù)大規(guī)模訓(xùn)練的數(shù)據(jù)配比提供了科學(xué)依據(jù)。
關(guān)鍵發(fā)現(xiàn)
基于分位標定,團隊得出若干有趣發(fā)現(xiàn):
數(shù)據(jù)集的優(yōu)勢與任務(wù)類型相關(guān)
Fineweb?Edu在知識問答與閱讀理解類任務(wù)上表現(xiàn)更好,DCLM?baseline 在常識推理類任務(wù)中略有優(yōu)勢。
![]()
DCLM baseline和Fineweb-Edu在MMLU和WinoGrande上的分位標定結(jié)果
同一數(shù)據(jù)集內(nèi)部質(zhì)量差異巨大
最高與最低質(zhì)量數(shù)據(jù)在ARC?Easy上的表現(xiàn)相差可達8%?15%
![]()
DCLM baseline和Fineweb-Edu在ARC-Easy上的分位標定結(jié)果
可以看到,高質(zhì)量數(shù)據(jù)占比雖小,卻是提升模型能力的關(guān)鍵。
數(shù)據(jù)利用策略
動態(tài)調(diào)整與課程學(xué)習(xí)
針對數(shù)據(jù)分布不均的問題,開元?2B提出三個策略。
多階段動態(tài)比例調(diào)整
隨著訓(xùn)練推進,逐步提升數(shù)學(xué)、代碼、中文等領(lǐng)域數(shù)據(jù)的比例,緩解模型遺忘,使關(guān)鍵領(lǐng)域在訓(xùn)練后期得到充分學(xué)習(xí)。
![]()
多階段調(diào)整數(shù)據(jù)比例
策略性數(shù)據(jù)重復(fù)
![]()
小規(guī)模實驗表明,對高質(zhì)量數(shù)據(jù)進行適度重復(fù)訓(xùn)練,效果優(yōu)于單輪訓(xùn)練。開元?2B在訓(xùn)練后期逐步提高高質(zhì)量數(shù)據(jù)的重復(fù)比例。
以Fineweb-Edu為例:Top 10%的高質(zhì)量數(shù)據(jù)在整個訓(xùn)練過程中出現(xiàn)多次,中低質(zhì)量數(shù)據(jù)僅出現(xiàn)一次,從而優(yōu)化數(shù)據(jù)效用分布。
![]()
Fineweb-Edu在多階段訓(xùn)練中采樣比例變化
多領(lǐng)域混合課程學(xué)習(xí)
研究團隊提出Curriculum Decay Model Average,在課程學(xué)習(xí)的基礎(chǔ)上引入權(quán)重平均,緩解訓(xùn)練噪聲,提升收斂穩(wěn)定性。
![]()
論文鏈接:https://arxiv.org/abs/2511.18903
該方法通過領(lǐng)域內(nèi)質(zhì)量排序與領(lǐng)域間比例均衡的結(jié)合,實現(xiàn)多領(lǐng)域數(shù)據(jù)的漸進式學(xué)習(xí)。
![]()
學(xué)習(xí)率衰減會影響課程學(xué)習(xí)效果
![]()
不同學(xué)習(xí)率衰減條件下,最優(yōu)的課程學(xué)習(xí)+權(quán)重平均配置(Ascend+EMA)要強于最優(yōu)的常見做法(Uniform+WSD)
![]()
多領(lǐng)域課程的實現(xiàn)
配合精心設(shè)計的學(xué)習(xí)率調(diào)度方案,模型在高質(zhì)量數(shù)據(jù)上得以充分學(xué)習(xí),最終在多類評測中接近千問系列(僅開源權(quán)重)的模型表現(xiàn)。
全流程開源
推動國產(chǎn)AI生態(tài)共建
開元?2B不僅是一次端側(cè)模型訓(xùn)練的實踐,更是一次全棧開源、全流程透明的技術(shù)示范。
從數(shù)據(jù)處理框架Kaiyuan?Spark、訓(xùn)練數(shù)據(jù)集,到數(shù)據(jù)評價體系、課程學(xué)習(xí)策略,所有環(huán)節(jié)均公開可復(fù)現(xiàn)。訓(xùn)練中涉及的所有原始數(shù)據(jù)集均具有寬松的開源協(xié)議(如CC、Apache、MIT、ODC等,詳細列表技術(shù)報告附錄B),個人、院校、企業(yè)均可自由使用,進一步提升了訓(xùn)練的可復(fù)現(xiàn)性。
注:目前部分聲稱「開放」的公開數(shù)據(jù)集,事實上本身并非使用自由許可證授權(quán),或者間接混入了帶有非自由許可證的原始數(shù)據(jù);另有大量的公開數(shù)據(jù)集,對來源數(shù)據(jù)的許可證未加任何篩選或說明。在模型訓(xùn)練中使用此類數(shù)據(jù)集并發(fā)布或使用,都可能帶來潛在的法律合規(guī)風(fēng)險。
這為國內(nèi)研究者在國產(chǎn)算力平臺上開展模型預(yù)訓(xùn)練提供了完整工具箱,也為構(gòu)建開放、協(xié)作的 AI 研發(fā)生態(tài)邁出堅實一步。
模型權(quán)重、技術(shù)報告與相關(guān)代碼已在官方平臺發(fā)布,歡迎開發(fā)者、研究者共同參與測試、改進與拓展。
結(jié)語
真正的技術(shù)進步源自開放的協(xié)作與共享,開元?2B是一個起點,未來與社區(qū)一起,在國產(chǎn)算力的土壤上,生長出更多創(chuàng)新的AI成果,從開元系列,開啟國產(chǎn)算力訓(xùn)練的「開元盛世」。
附錄
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
左右滑動查看
參考資料:
秒追ASI
?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點亮星標,鎖定新智元極速推送!





京公網(wǎng)安備 11011402013531號