英伟达揭示RL Scaling秘诀，小模型推理迎质变 – realnews.my 马来西亚新闻经济科技旅游娱乐体育生活

强化学习的神奇放大镜：英伟达揭示训练步数与推理能力的秘密联系

在人工智能的璀璨星河中，大型语言模型（LLM）无疑是最耀眼的存在之一。它们的强大能力令人惊叹，但其内部运作机制，尤其是能力进化的路径，却常常笼罩着一层神秘的面纱。强化学习（RL）作为训练AI模型的重要技术，究竟在多大程度上影响着语言模型的“智慧”？它是真正的能力引擎，还是只是让模型更善于“应试”？长久以来，这个问题在学术界引发了广泛的讨论，有人乐观，有人则认为RL的收益有限，甚至可能导致模型能力的“同质化”。

然而，英伟达最新的一项研究，如同拨开了迷雾，为我们揭示了强化学习与语言模型能力之间，尤其是与推理能力之间一个引人注目的秘密联系：训练步数的增加，竟然能带来推理能力的质变，甚至让小模型突破原有的推理极限。这不仅仅是简单的量变引起质变，更像是一个“魔法放大镜”，将模型潜藏的巨大潜力充分释放。

训练步数不足的“瓶颈”与过度呈现的“偏见”

过去的研究之所以对强化学习持保留态度，英伟达的研究指出了两个关键原因。首先，在基础模型（base model）的训练数据中，像数学、编程这类需要复杂推理的任务可能被过度呈现了。这意味着模型在预训练阶段就已经接触了大量的相关知识，导致后续的强化学习训练看起来只是在原有知识基础上进行微调，难以展现出“学会新东西”的能力。其次，也是更重要的原因，可能是强化学习的训练步数不足。传统的RL训练可能只进行几百步，这对于充分探索和巩固复杂的推理能力来说，远远不够。

想象一下，学习一项新技能，只练习几次是很难真正掌握精髓的。对于语言模型而言，推理能力同样需要大量的“练习”和“试错”，才能从对知识的简单调用，升华到真正的逻辑思考和问题解决。

ProRL框架：打破训练步数的束缚

为了验证“训练步数”的关键作用，英伟达团队提出了一个名为 ProRL（Prolonged Reinforcement Learning）的框架。这个框架的核心在于将强化学习的训练步数从传统的几百步，大幅提升到了2000步以上。这一看似简单的改变，却带来了令人震惊的结果。

在逻辑谜题这类对推理能力要求极高的任务上，经过ProRL训练的模型表现出了惊人的提升。原本对这类问题完全束手无策的模型，在ProRL的加持下，pass@k（即在前k个生成答案中包含正确答案的比例）竟然能够达到100%。这意味着模型不再是依靠“蒙对答案”，而是真正“开窍”了，具备了解决复杂逻辑问题的能力。

更令人惊喜的是，ProRL训练显著提升了模型的创造力指标。模型不再拘泥于固有的解题模式，而是能够主动生成全新的解题路径。这表明长期的强化学习不仅仅是提高了模型解决特定问题的能力，更激发了模型的探索和创新潜力。

长期RL训练的技术“组合拳”

当然，实现稳定长期的强化学习训练并非易事。训练过程中容易出现熵崩塌、性能震荡，甚至模型“摆烂”的情况。为了克服这些挑战，英伟达团队构建了一套完整的技术“组合拳”。

首先，他们引入了多样化且可验证的奖励任务。这包括数学、编程、科学问答（STEM）、逻辑谜题以及指令遵循等多个领域的任务。这些任务的一个共同特点是具有程序化可验证的正确答案，这为强化学习训练提供了可靠、客观的监督信号，避免了依赖容易被“欺骗”的奖励模型。

其次，团队对强化学习算法进行了改进，结合了 GRPO（Group Relative Policy Optimization）框架和 DAPO（Decoupled Clip and Dynamic Sampling）技术。 DAPO中的解耦裁剪（Decoupled Clipping）有助于避免策略更新失衡，而动态采样（Dynamic Sampling）则可以过滤掉“太容易”或“完全不会”的无效样本，从而提高训练效率。

此外，研究还采用了 KL 正则化和周期性策略重置等技术，进一步提升了训练的稳定性和效果。

小模型的大潜力：突破推理极限

这项研究最令人振奋的发现之一，就是揭示了小模型在长期强化学习训练下所蕴含的巨大潜力。过去，人们可能认为只有参数规模巨大的模型才能具备强大的推理能力。然而，ProRL框架证明，通过 prolonged 的强化学习，即使是相对较小的模型，也能在推理能力上实现质的飞跃，突破其在预训练阶段所能达到的极限。

这意味着，未来我们可能无需一味追求模型的巨大化，而是可以通过更高效的训练方法，让现有的小模型变得更加“聪明”和强大。这对于资源有限的研究者和开发者来说，无疑是一个重大利好，降低了开发和部署高性能AI模型的门槛。

推理能力的“成长曲线”与创造性的涌现

英伟达的这项研究不仅展示了训练步数对推理能力的直接影响，还深入探讨了这种影响的“成长曲线”。研究发现，随着训练步数的增加，模型的创造性也呈现出增强的趋势。模型不再仅仅是“学习”和“重复”，而是开始展现出主动探索和生成新颖解决方案的能力。这种创造性的涌现，或许正是强化学习长期训练所带来的更深层次的能力提升。

总结：RL Scaling的魔力与AI的未来

英伟达的这项研究，如同为我们打开了一扇窗，让我们得以窥见强化学习Scaling（缩放）的魔力。它有力地证明了，强化学习不仅仅是优化模型已有能力的工具，更是拓展模型能力边界、激发模型潜力的重要途径。通过 Prolonged 的训练，模型可以从对已知知识的调用，真正迈向对未知问题的探索和解决。

这项研究对于推动人工智能技术的发展具有重要意义。它不仅为我们提供了提升模型推理能力的新思路，也为我们理解模型能力进化的机制提供了新的视角。未来，随着对强化学习Scaling的深入研究和应用，我们有理由相信，人工智能将在推理、创造力和问题解决等方面展现出更加令人惊叹的能力，为人类社会带来更多创新和变革。小模型也将有机会在更多领域大放异彩，突破我们对AI能力的固有认知。

强化学习的神奇放大镜：英伟达揭示训练步数与推理能力的秘密联系

Related Articles