您当前的位置:首页 > 资讯 > 科技资讯

清华团队靠强化学习让 7B模型数学打败GPT-4o

时间:2025-01-07 14:19:25  来源:  作者:
https://news.miracleplus.com/share_link/53499近日,清华大学NLP实验室与多家机构合作,提出了一种新型强化学习方法——PRIME(Process Reinforcement through IMpli

https://news.miracleplus.com/share_link/53499

近日,清华大学NLP实验室与多家机构合作,提出了一种新型强化学习方法——PRIME(Process Reinforcement through IMplicit REwards)。该方法通过隐式过程奖励(implicit process reward),解决了大模型强化学习中的两个关键挑战:如何获得密集且可扩展的奖励,以及如何设计有效的强化学习算法。研究人员利用这一方法,成功训练出一个数学能力超过GPT-4o、Llama-3.1-70B的7B模型——Eurus-2-7B-PRIME,仅用了8张A100显卡和不到10天的时间,成本仅为一万块左右。该模型在美国IMO选拔考试AIME 2024中的准确率达到26.7%,大幅超越了现有的多种开源模型,强化学习方法带来了16.7%的绝对提升,超越了已知的任何开源方案。

PRIME方法的核心在于其隐式过程奖励模型。传统的强化学习往往依赖明确的奖励模型,而PRIME则能够在不额外训练奖励模型的情况下,通过对结果标签(如最终答案的正确与否)进行训练,自动建模过程奖励。这一创新使得PRIME方法具备了高效性、可扩展性和简洁性三大优势。首先,隐式过程奖励能够为每个token提供价值估计,不需要额外训练价值模型;其次,隐式过程奖励模型可以只依赖结果标签进行在线更新,从而解决了大模型在强化学习中面临的分布偏移与可扩展性问题;最后,这种模型本质上就是一种语言模型,实践中可直接用初始策略模型进行初始化,大大简化了强化学习过程。

在实验中,PRIME算法相比于传统的结果监督方法,展现了2.5倍的采样效率提升,并且在下游任务中也取得了显著的性能提升。此外,PRIME方法还证明了在线更新过程奖励模型(PRM)的重要性,与固定不更新的PRM相比,在线更新的效果更佳。

PRIME的发布引发了海外AI社区的广泛关注,短短几天内,GitHub上的star数已接近300。研究团队预计,基于PRIME方法和更强基座模型的结合,未来有望训练出接近OpenAI o1模型的强大推理能力。这项创新性的强化学习算法不仅解决了大模型强化学习的奖励稀疏问题,还为模型的高阶推理能力提供了新的突破,有望在大模型训练和复杂推理领域带来更大的发展。

作者:

创建日期:

2025-01-07 14:19:25

版权声明:

本文章采用CC BY-NC-SA 4.0进行许可!