RL是“点金石”还是“挖掘机”？ CMU 使用受控实验来得出答案

机器心报道机器心编辑部近年来，强化学习（RL）技术在提高语言模型推理能力方面取得了显著成果。但训练后是否真的扩展了模型的推理能力，还是只是利用了训练前的潜力？目前还不清楚。一个关键挑战在于现代培训渠道缺乏控制。大型预训练语料库不够透明，中期训练往往研究不足，强化学习目标函数与未知先验知识之间存在复杂的相互作用。为了回答这个问题，卡内基梅隆大学（CMU）的研究人员构建了基于 GSM-Infinite 的可控合成数据框架，定量分析了完全隔离环境下预训练、内部训练/CPT 和 RL 对模型推理泛化能力的因果影响。此举旨在独立在基于强化学习的训练之前、期间和之后理清并分析因果关系。 https://x.com/xiangyue96/status/1998488030836044112 研究人员从两个方面评估了模型：其对更复杂组合的外推和泛化能力以及其在不同表面上下文中的情境泛化能力。使用这个框架，研究人员协调了关于强化学习有效性的不同观点。研究表明，只有在预训练留下足够的改进空间并且 RL 数据指向模型能力的极限（即困难但不超出模型能力的任务）时，RL 才能产生真正的性能提升 (pass@128)。情况的泛化需要最少但足够的事先训练，之后 RL 可以可靠地转移。对于给定的计算量，与单独使用 RL 相比，中间训练可以显着提高性能，这表明它发挥了重要作用培训过程中的角色虽然很传统，但人们却知之甚少。流程级奖励消除了奖励黑客现象并提高了推理保真度。文章标题：论预训练、训练中和强化学习在推理语言模型上的相互作用文章地址：https://arxiv.org/abs/2512.07783 Github：https://github.com/Interplay-LM-Reasoning/Interplay-LM-ReasoningHuggingFace：https://huggingface.co/Interplay-LM-Reasoning 综上所述，这些结果表明了以下交互作用：预训练、训练中和强化学习，为理解和改进推理语言模型的训练策略奠定基础。该作品在 Alphaxiv 上排名第一。同时，该作品在 AI 社区获得了大量好评，ViT 作者之一 Lucas Beyer 也出现在了评论区。核心方法：完全可控的实验沙箱从因果层面解构大规模模型的推理能力来源，研究团队设计了一个严格可控的合成数据框架，而不直接使用现有的大规模黑盒模型或未知的互联网语料库。该框架基于GSM-Infinite生成技术，旨在控制数据源的分布、推理的深度和上下文的广度。数据生成框架概述及任务配置基于依赖图（DAG）的数据生成 isframework 的核心思想是将“推理结构”与“表层上下文”完全分离。上下文表示：确定推理骨架后，系统通过应用各种“上下文模板”（动物园、学校等场景）来表示自然语言问题中的抽象数学图。这种分离使研究人员能够检查模型是否真正学习了推理逻辑或只是记住了特定的文本模式。三步训练过程严格分离，避免评价偏差由于数据污染。研究人员定义了三个不重叠的训练阶段，并为每个阶段精确分配了数据分布：预训练：使用 10B 个 token 数据，主要包含基本推理规则和原语（primitives）。重点是让模型学习基本功能 (op=2-10)，同时将更深层次的任务作为不可见的测试套件进行维护。中级训练：是预训练和强化学习之间的“桥梁”阶段。它使用类似于 RL 阶段的数据分布（即模型功能边缘的数据），旨在调整模型的内部表示，使其“RL 就绪”。训练后（Post-training/RL）：使用GRPO算法对给定的任务难度和上下文进行强化学习，以探索给定奖励信号下模型能力的极限。过程级验证评估防止模型“猜测答案”或通过错误的推断得出正确的结果由于路径（即奖励黑客），我们在本研究中引入了流程级验证。系统不仅验证最终答案，还会将模型生成的思维链提出来，还原为依赖图，并与实际推理过程一步步进行比较（Ground Truth DAG）。只有所有推理步骤和最终答案都正确，您才能通过。解构绩效发展的四个关键发现基于上述框架，研究人员进行了一系列控制变量实验，得出了关于强化学习、预训练和中期训练相互作用的四个关键结论。这有效地平息了关于强化学习能否创造新能力的学术争论。 RL 的有效性取决于“容量限制”。强化学习并不能提高所有情况下的推理能力。对于通过预训练完全掌握的简单任务，RL 只能提高 pass@1（即减少错误），但无法提高 t模型的上限 (pass@128)。跳跃和实际容量限制发生在处于模型“特征限制”的任务上（例如，预训练涵盖 op=2 到 10，目标 RL op=11 到 14）。在此范围内，强化学习可以通过探索产生显着的外推泛化增益。如果任务太困难（op = 15-20）并且超出了模型的搜索范围，RL 的好处也会丧失。因此，RL训练数据应该仔细调整以针对模型的“特征边缘”，既不能太简单也不能太困难。强化学习在不同难度任务上的表现的泛化种子：训练前 1% 的暴露至关重要。在考虑模型是否能够将其推理能力迁移到新的上下文时，研究发现，如果在预训练中没有（0％）接触特定的长尾上下文，则即使在强化学习阶段进行广泛的训练，模型也无法实现有效的迁移。因此，RL 不能从 scratch 创建h.需要事先进行培训以提供最基本的“原语”作为起点。预训练数据混合比例对情境泛化的影响。中期训练是提高计算效率的重要手段。在IT预算固定的情况下，如何分配中级训练和强化学习的比例？中级训练 + RL 纯 RL：引入中级训练阶段比简单增加 RL 步骤数更有效。分配策略：对于非常困难的任务（OOD-Hard），实验表明“少量中期训练（建立先验分布）+大量RL（深度探索）”的组合是最好的策略。另一方面，对于中等难度的任务，在中期增加训练比例可能会导致更稳定的 pass@1 性能。中期训练充当“分配桥梁”，显着提高样本效率和最终的上限强化学习性能。比较不同算力分配策略的性能。抑制过程奖励和机会主义。 RL中常见的奖励获取问题是模型使用捷径来获得高分，但为了解决推理逻辑错误的问题，本研究引入了过程监控。实验数据表明，将稀疏结果奖励和密集过程奖励相结合可以显着减少结构错误（例如缺失步骤和依赖错误）。这种混合奖励机制为链推理任务提供了稳定的 pass@1 改进（$op=15\text{-}20$）。过程级信号可以标准化 RL 搜索的方向，并确保功能的改进基于忠实的推论。不同奖励机制有效性的比较结论本研究通过分解培训过程提供了明确的实践指导。 RL 数据设计：数据集应构建到 RL 的“功率边缘”模型，计算能力不应该浪费在太简单或太困难的任务上。预训练策略：长尾领域的原子特征（原语）应保证至少1%的覆盖率，并为RL留下接口。算力分配：根据目标任务的难度动态调整中间训练与强化学习的比例。需要更多的强化学习来克服困难问题，并在中期进行更多的训练来提高稳定性。
特别提示：以上内容（若含照片、视频）由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注：以上内容（包括图片和视频，如有）由网易号用户上传发布，网易号是一个仅提供信息存储服务的社交媒体平台。

归档

分类

由 admin

发表回复取消回复

您错过了

香港半导体股表现良好，华虹半导体涨超10%，中芯国际涨超5%。

消息人士称，戴尔计划在 CES 2026 上“重新推出”其 XPS 笔记本电脑产品线

2025年，力跑全年交付量预计将达到596,555辆，同比增长103%。

您在晚高峰乘坐L3级自动驾驶汽车出行是怎样的体验？我们的记者带您感受未来 →

RL是“点金石”还是“挖掘机”？ CMU 使用受控实验来得出答案

由 admin

相关文章

消息人士称，戴尔计划在 CES 2026 上“重新推出”其 XPS 笔记本电脑产品线

您在晚高峰乘坐L3级自动驾驶汽车出行是怎样的体验？我们的记者带您感受未来 →

报告：苹果人工智能战略有望明年终见成效

发表回复 取消回复

您错过了

香港半导体股表现良好，华虹半导体涨超10%，中芯国际涨超5%。

消息人士称，戴尔计划在 CES 2026 上“重新推出”其 XPS 笔记本电脑产品线

2025年，力跑全年交付量预计将达到596,555辆，同比增长103%。

您在晚高峰乘坐L3级自动驾驶汽车出行是怎样的体验？我们的记者带您感受未来 →

发表回复取消回复