新智慧报告发布者:LRST 【新智慧入门】在算力有限、数据参差不齐的情况下,如何训练出高效可用的设备端模型?鹏城研究院和清华大学不仅提供了答案,还以开源的形式分享了所有步骤。如果我的实验室只有国家计算能力、有限的资源和开源数据,我可以预训练最终模型吗?鹏程实验室与清华大学PACMAN实验室联合发布了PCMind-2.1-Kaiyuan-2B模型(简称PCMind-2.1-Kaiyuan-2B、Kaiyuan-2B),包括训练数据、数据处理框架和训练。我们通过提供整个过程的开放访问来应对这一挑战,从框架和完整的技术报告到最终的模型权重。模型链接:https://huggingface.co/thu-pacman/PCMind-2.1-Kaiyuan-2B 数据集:https://huggingface.co/datasets/thu-pacman/PCMind-2.1-Kaiyuan-2B 技术报告:https://arxiv.org/abs/2512.0761 2 数据处理框架工作:https://github.com/thu-pacman/Kaiyuan-Spark 训练框架:https://github.com/thu-pacman/kaiyuan-mindformers 此次开源不仅为国家研究人员提供了可复制、可重复的技术路径,而且展示了在国家计算平台上实现高效稳定预训练的完整解决方案。开元二号B的训练基于鹏程大脑2号计算平台,数据处理基于华为鲲鹏920,训练系统基于华为Ascend 910A。 Ascender 910A 仅支持 FP16 精度(与 NVIDIA V100 类似),因此训练稳定性是主要挑战。为了实现这一目标,研究团队基于architecture.ture Qwen3-1.7B引入了两项关键技术:Sandwich Norm和Soft Clipping。 Sandwich Norm:在Transformer中的每一层之前和之后维护一个归一化层,以有效控制梯度传播的数值范围。软修剪:应用tanh非线性变换到输出logit可以确保值在合理的范围内稳定并防止训练中的发散。此外,还比较了软修剪前后的夹层范数和数值稳定性。这些技术不仅稳定了FP16环境下的训练,也为后续国家平台大规模训练提供了重要参考。高效地删除重复数据、评估和使用开源数据。开源预训练数据规模已达TB级,来源多样,质量参差不齐。如何选择高质量的零件并制定匹配策略是训练高质量模型的基础。开元二号B面临两大问题。它是一种从大量数据中选择高质量子集的方法。如何不在同一数据集上建立统一的质量指标?高效实现全局重复数据删除:开元-Spark框架 研究团队开发了开元-Spark数据处理框架amework,采用树形管道设计和完整的YAML配置管理,方便复制和扩展。结合诸葛Nu计算框架进行本地加速,MinHash去重任务实现了2.5倍的端到端加速率,高效完成TB级数据的全局模糊去重。分位数基准 为了解决数据集之间质量标签无法比较的问题,团队提出了分位数基准,用于小规模探针实验的设计,建立数据质量分数与后续任务表现之间的映射关系。事情完成了。下图是分位数校准过程的示意图。根据质量分位数提取不同数据集的多个子集,并使用小规模模型进行训练和测试。最后,我们根据后续任务表现来校准每个数据集的质量区间。该方法成本低、可转移,为后续研究提供了科学依据。或者在后续的大规模训练中进行数据对比。主要发现 基于分位数校准,该团队得出了一些有趣的发现。数据集的优势与任务类型有关。 Fineweb-Edu 在知识问答和购买任务以及阅读方面表现较好,而 DCLM-Baseline 在常识推理任务上表现稍好。 MMLU 和 WinoGrande 中 DCLM Baseline 和 Fineweb-Edu 的分位数校准结果。即使在同一数据集中,质量也存在很大差异。 ARC-Easy 中较高质量和较低质量数据之间的性能差异可能在 8% 到 15% 之间。 ARC-Easy 中 DCLM Baseline 和 Fineweb-Edu 的分位数校准结果。我们可以看到,虽然高质量数据所占比重较小,但却是提高模型功能的关键。数据利用策略及课程学习动态调整 针对数据分布不均的问题,开元二号提出了e 策略。多阶段动态比例调整,随着能力的提升,逐步提高数学、编码、语文等领域数据的比例,减少模型遗忘,让关键领域在训练后期得到充分学习。数据比例的多级调优、数据的策略性重复以及小规模实验表明,使用高质量数据进行适度重复训练比单轮训练更有效。开元二号B在训练后期逐渐提高高质量数据的重复率。以Fineweb-Edu为例,前10%的高质量数据在训练过程中多次出现,而低质量数据仅显示一次,优化了数据效用的分布。 Fineweb-Edu多领域混合课程学习研究团队提出了一种基于多阶段训练采样率变化的平均课程衰减模型。为了减少训练噪音并提高为了收敛稳定性,我们引入了基于课程学习的加权平均值。文章链接:https://arxiv.org/abs/2511.18903 该方法结合序列和域平衡,实现多域数据的增量学习。学习率的下降影响课程的学习效果。在各种学习率下降条件下,最优课程学习+加权平均配置(Ascend + EMA)比一般最优方法(Uniform + WSD)更强大。通过多领域课程的落地以及精心设计的学习率调度方案,模型可以用高质量的数据进行充分的训练,最终接近Qianwen系列模型(仅开源权重)在多类别评估中的表现。开源进程的完成将促进国家人工智能生态系统的发展。此次联合建造开元二号B不仅是一次终端侧模型训练演习,也是一次完全开放的技术论证整个过程的来源和透明度。从Kaiyuan-Spark数据处理框架到训练数据集、数据评估系统、课程学习策略,所有环节都是公开的、可复制的。训练中包含的所有原始数据集均拥有免费开源许可(CC、Apache、MIT、ODC等,详细列表见白皮书附录B),可供个人、机构和公司免费使用,进一步提高了训练的可重复性。注意:目前,一些声称“开放”的公共数据集实际上没有免费许可证,或者与具有非免费许可证的原始数据直接混合。此外,未解释源数据过滤和许可。还有许多可用的公共数据集。使用此类数据集来训练、发布或运行模型可能会带来潜在的法律合规风险。这为国家研究人员在国家计算机上预训练模型提供了一个完整的工具箱平台的建立,也是构建开放协作的人工智能研发生态系统的坚实一步。模型重量、技术报告及相关代码已在官方平台上公布。开发人员和研究人员可以参与测试、改进和扩展它。结论 真正的技术进步来自开放协作和共享。开元二号B是起点。未来,与社会各界合作,更多人工智能创新成果将在国家算力领域成长。国家算力培训计划“开元盛世”从开元系列开始。附录:左右滑动查看参考资料:秒追ASI⭐点赞、转发、连续观看3次⭐亮星挡新智元快推!
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务es.
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。