2025年12月6日,在美国圣地亚哥召开的第39届神经信息处理系统会议(Conference on Neural Information Processing Systems,NeurIPS)上,清华大学自动化系宋士吉、黄高团队的论文“Does reinforcement learning really incentivize reasoning capacity in LLMs beyond the base model?(强化学习是否真的能激发大语言模型产生超越基础模型的推理能力?)”荣获Best Paper Runner-Up Award(最佳论文亚军奖)。NeurIPS为人工智能领域历史最悠久、最具影响力的学术会议之一,今年共收到21575篇投稿,录用论文5290篇,其中7篇论文获得最佳论文奖或最佳论文亚军奖。该论文是 NeurIPS 自设立大会最佳论文奖或杰出论文奖以来,首篇完全由国内高校学者组成的研究团队完成的获奖成果。
获奖合影(中间三位为自动化系获奖学生)
RLVR 训练前后模型推理树的对比:效率提升 vs 边界收缩
以OpenAI o1和DeepSeek-R1为代表的具有“深度思考”能力的大语言模型在数学、编程等任务上展现了强大的推理能力,其背后的关键创新性技术——可验证奖励的强化学习(reinforcement learning with verifiable reward,RLVR)也因此受到了学术界的高度关注。研究者们普遍认为,类似于强化学习在围棋等任务上的成功(如 AlphaGo, Atari),RLVR也能帮助大模型探索出人类未知的全新策略,从而实现超越人类水平的性能。
然而,事实是否确实如此?该论文针对这一基础性问题,巧妙地通过设计新的评测指标(pass@k)并结合详尽的实验分析,给出了颠覆性的结论:当前RLVR 带来的性能提升主要来自于在基座模型已经掌握的能力范围内提升高质量推理路径的采样效率,而几乎没有激发出真正新的推理能力。在数学推理、代码编写和视觉推理等广泛的测试基准上,论文发现当前多种主流大模型在经过 RLVR 训练后,虽然单次(或少数次)回答的准确率显著跃升,但随着采样次数的增加,其可解决问题的比例反而逐渐落后于未经强化学习训练的基座模型。这意味着,当前的 RLVR 范式以牺牲解题空间广度为代价,仅侧重优化了对已知正确推理路径的检索效率。
基座模型与 RLVR 模型在不同数学基准上的 pass@k 曲线对比
针对上述结论,该文进一步分析了 RLVR 应用于大语言模型训练的深层机制。通过分析模型输出的准确率分布和覆盖率,团队发现 RLVR 的成功主要源于对基座模型概率分布的“锐化(Sharpening)”,即将原本潜藏在基座模型庞大分布中的正确路径转化为高概率输出。RLVR 模型能解的问题集合,几乎完全是基座模型可解问题集合的一个子集。论文通过自然语言处理中的困惑度(perplexity)指标分析进一步证实,RLVR 模型生成的推理路径几乎被基座模型的高似然输出分布所覆盖。团队还横向测评了多种主流强化学习算法,结果表明,尽管不同算法在采样效率上存在细微差异,但它们均未能突破基座模型的能力上界。最后,论文从更多角度的实验和分析给出了研究强人工智能的一个重要启示:要真正突破基座模型推理能力的边界,未来的强化学习必须跳出对单一基座模型存量知识的“利用(Exploitation)”,转向实现高层抽象空间、过程奖励引导和多智能体交互下的深度“探索(Exploration)”。
NeurIPS 是人工智能领域的旗舰学术会议之一,其最佳论文奖旨在表彰在机器学习、人工智能及相关领域中具有卓越创新性、重大影响力并能推动学术前沿发展的研究工作,需经过多轮严格评审,并最终由来自多个国家的资深专家组成的委员会评选而出。奖励评审委员会评价:“本文针对大语言模型(LLM)研究中一个被广泛接受的基础性假设——带有可验证奖励的强化学习(RLVR)激发了大模型新的推理能力——给出了一种精妙且至关重要的否定性发现。研究表明,在不同的模型类型、任务和算法中,RLVR训练虽能提高正确输出的采样效率,却无法拓展基础模型已有的推理能力。强化学习缩小了探索范围,受奖励的轨迹得到强化,但更广泛的解决方案空间却缩小了。这表明RLVR是在基础分布范围内进行优化,而非超越基础分布。这是一项重要发现,有望激励人们研发全新的强化学习范式,使其能够应对广阔的动作空间,并真正拓展大语言模型的推理能力。”
论文的两位共同第一作者分别为清华大学自动化系博士生乐洋和本科生陈之琪。
获奖证书
论文信息:
Yue, Y., Chen, Z., Lu, R., Zhao, A., Wang, Z., Yue, Y., Song, S. and Huang, G. Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
[论文全文链接]: https://arxiv.org/abs/2504.13837
[项目主页]: https://limit-of-rlvr.github.io/
[会议获奖信息]: https://blog.neurips.cc/2025/11/26/announcing-the-neurips-2025-best-paper-awards/