掌秋使 手游攻略 手游评测 LLM Plus RL受到质疑:故意使用错误的奖励,数学基准也得到了显着改善,并且AI圈已经爆炸了

LLM Plus RL受到质疑:故意使用错误的奖励,数学基准也得到了显着改善,并且AI圈已经爆炸了

时间:2025 07 15 14:00:12 来源:网络整理 浏览:0

这篇文章给大家聊聊关于LLM Plus RL受到质疑:故意使用错误的奖励,数学基准也得到了显着改善,并且AI圈已经爆炸了,以及对应的知识点,希望对各位有所帮助,不要忘了收藏本站哦。

我们已经训练了这么长时间,我们在培训什么?

这是今年最“有趣”的论文。

这个星期二,华盛顿大学的一篇论文,艾伦的人工智能实验室和伯克利引发了AI世界。

论文:伪造奖励: RLVR项目中的重新思考培训信号链接:3https://github.com/ruixin31/rethink_rlvr/tree/main询问加强学习(RLVR)传统观点

最近,可验证的奖励增强学习(RLVR)已成为增强大语言模型(LLM)推理能力的标准方法。传统上,高质量的监督信号对于有效的RLVR培训至关重要。最近的研究提出了这一假设的挑战,表明使用RLVR训练单个样本或无监督样品仍然可以在QWEN-MATH模型上取得重大进展。

但是,我们不禁问:单样本或无监督的RLVR中的训练信号来自哪里?为了提供有意义的RLVR培训信号,奖励的最低要求是什么?

我们的发现令人震惊。

虚假的奖励,甚至是随机或错,可以显着改善QWEN-MATH的性能

我们发现,RLVR可以通过所谓的“虚假奖励” ——提供很少甚至误导信号,从而大大提高了数学推理能力。

这是我们尝试过的一些有趣的回报:

格式奖励:仅奖励包含\ boxed {}奖励的答案,仅用于包含\ boxed {}表达式的答案。该格式也是系统向模型提供的提示中指定的格式,因此提供了“提示跟随”的概念。随机奖励:完全任意的反馈——字面含义:1如果(Random.random()速率)else 0 0错误奖励:有意设置错误的监督信号——步骤获得错误但值得信赖的标签:按频率将模型推出以获取最常见的答案,以获取最常见的答案,如果答案是正确的,请训练该模型和最常见的答案。我们还比较了文献中研究的其他一些弱奖励:

多数投票奖励:将多数投票的答案用作标签。单样本增强学习:标准加强学习虚拟学习(RLVR)是在单个样本上进行的。

RLVR Math-500在150个不同培训信号的培训150步之后的精度。我们证明,即使是“错误的奖励”也可以在QWEN模型上带来重大的数学改进。应当指出的是,这些奖励信号不适用于其他模型,例如Llama3和Olmo2,因为它们的推理先验不同。

从广泛用于AI社区的强化学习中的模型QWEN2.5-MATH-7B开始,我们在多个数学推理基准的基于真实价值的监督模型中实现了可比的性能改进。

这一发现直接挑战了现有的对强化学习在改善AI推理能力中的作用的理解。

有逆转:错误的奖励对所有模型均无效

当我们将实验扩展到其他未针对数学推理(包括QWEN2.5-base,olmo2,olmo2和llama3变体)的模型时,观察到了一些有趣的现象:

与Qwen-Math不同,其他模型在“错误的奖励”方面的性能非常有限。

(我们主要讨论Math-500上的性能。有关AMC,AIME 2024的更多结果,尤其是培训数据截止日期后的AIME 2025测试集,请参阅完整的论文。)

对真实标签进行第一次理智检查。它提高了所有模型的性能。当使用真实的标签作为简单的GRPO时,我们会看到所有模型系列的改进,而QWEN和QWEN-MATH的改进都比Llama和Olmo模型进行了改进。多数票的结果是什么?先前的研究提出了提高模型一致性的方法。我们发现这确实对大多数模型是有益的,但对Olmo不利。如果我们只有在响应包含\\盒装{}时给予奖励,该怎么办?实验发现,仅仅训练模型以生成可放松效果,就可以在QWEN模型上取得巨大的性能提高。 ——QWEN2.5-1.5B的绝对增加高达49.9。但是,这种奖励会损害Llama3.2-3B-Instruct和Olmo2-SFT-7B的表现,分别降低了7.3和5.3的性能。有趣的是,达到顶峰后的性能开始逐渐下降。我们认为这是因为该模型已经“学习”了格式,因此进一步的培训不能为其提供更多信息。错误的奖励——事情开始变得有趣。我们发现它仍然显着改善了QWEN模型的性能,但对Llama模型没有影响,并且损害了Olmo-Base和Olmo-SFT模型。最后,如果我们在不观察模型本身的情况下将奖励0或1随机分配给模型会发生什么?这仍然有效吗?您猜测它适用于QWEN模型,但对其他型号不适用。请注意,随机奖励在QWEN2.5-1.5B中不起作用,仅在大约120个步骤后才开始在QWEN2.5-7B中工作。基于此观察结果,我们对其进行了更长的时间(300步)训练,并发现与其他信号奖励相比,这些模型的收敛水平较低。

这种依赖体系结构的行为表明,RLVR的有效性更多地取决于现有的模型功能,而不是监督信号的质量。

对未来工作的实际警告

QWEN模型凭借其开源权重和推理任务的高性能,已成为开源社区中RLVR研究的一种选择,基于以QWEN为中心的实验,已经得出了一系列关于RLVR的最新研究(请参阅列表的原始论文)。

但是,我们发现最近的两项研究表明,使用弱监督的RLVR在QWEN模型上效果很好,但是这些结论不能推广到其他模型家族。

测试过程中的强化学习:本文提出了在测试样本上的RLVR,并使用在相同策略(On Policy)下投票多数的答案来计算奖励。单样本增强学习:本文表明,只有一个样本的RLVR可以在标准培训集中实现与RLVR相当的性能。

我们在多个基本模型上评估了两个最近提出的弱监督的RL方法——TTRL和单样本RL。我们发现这些提议的培训奖励可以继续在QWEN模型上工作。但是,除了少数例外,这些相同的信号通常不会给其他模型家庭带来好处,这与我们在虚假奖励训练时观察到的有限的概括能力。

因此,我们建议将来的RLVR研究应在其他模型上进行验证。

是什么使RLVR具有虚假的奖励有效?

现在,您可能很好奇——为什么会发生这种情况?为什么所有这些错误的奖励在QWEN-MATH模型上有效?魔术在哪里?

总体而言,我们假设RLVR训练结果的差异是由于每个模型在预训练期间学到的不同特定推理策略所致。特别是,RLVR可能很容易引起某些策略,而其他策略可能很难表现或根本不存在。

我们确定了一种生成代码以有助于数学推理的店内策略,Qwen-Math可以有效地利用这些推理,而其他模型家族使用的使用量较少。我们将代码推理作为一个启发性的案例研究,但这不是一个完整的解释:我们观察到其他一些行为也很容易引起,并且通常与绩效有关,例如“无重复”。有关更多详细信息,请参阅论文。

LLM Plus RL受到质疑:故意使用错误的奖励,数学基准也得到了显着改善,并且AI圈已经爆炸了

启发式案例研究:代码推理

通过仔细的分析,我们找到了一个关键的见解:甚至在RLVR培训之前,Qwen-Math生成了Python代码以解决数学问题的时间65.0。更令人惊讶的是,如果没有代码执行人,它通常会生成正确的代码输出和问题的正确答案。

但是,这种频繁和高质量的代码推理能力在其他模型中不存在。

QWEN2.5-MATH-7B的代码推理响应的示例。此问题是从Math-500测试集中随机选择的。请注意,代码及其执行结果是由QWEN2.5-MATH-7B自动进程生成的。模型未提供外部代码解释器。

应用RLVR后,无论奖励质量如何,该代码推理的频率平均增加到90以上。

推理策略的这种转变而不是获得新的推理技能似乎是推动绩效提高的原因。 QWEN模型学会通过RLVR培训使用更多代码推理。从语言推理到代码推理的过渡有效地提高了性能。

对于QWEN-MATH和QWEN模型,代码频率与性能高度相关。代码越多- 答案越正确,反之亦然。但是,在产生代码但无法产生质量代码的模型中(例如Olmo2-7B-SFT),此相关性恰恰相反。

细粒度的准确性跟踪- 仅选择正确的推理策略,我们将受益多少?

更有趣的是,我们跟踪了RLVR之前和之后的推理策略变化的问题,并分析了绩效增长的实际位置。我们发现:

错误的奖励在将模型行为转换为代码推理方面更为根本,并且很少将最初代码推理的内容转换为自然语言推理。令人印象深刻的是,基于假奖励的RLVR看起来是那些从自然语言推断转换为代码推断的人的正确选择——,性能显着提高了约55。另一方面,真正的标签奖励将自然语言推断的表现提高了60.2!下面的流程图包含更详细的说明。

我们进一步量化了每个策略转换行为对每个模型的性能增益的贡献。看到这一点非常酷:如果模型擅长代码推理(代码准确性,语言准确性),则RLVR的增益主要来自从语言到代码推理的转换;如果模型不擅长代码推理(代码准确性,语言准确性),则RLVR的增益主要来自从代码到语言推理的转换。

成功的Bootstrap模型推理策略的奖励的平均计算,部分促成了整体绩效增长。

基于我们最初观察到的这些强相关性,我们假设代码推理是QWEN模型中导致良好数学性能的推理行为之一。

为了检验我们的假设,我们明确约束模型以通过提示和增强学习来产生代码推理。我们观察到在所有测试模型中,代码推理的频率与基准性能之间存在很强的相关性。 (相关方向取决于特定模型的代码质量)。

通过提示诱导代码推理

我们只是通过提示模型并从句子开始“让我们使用Python解决此问题”开始响应。这种简单的方法可显着提高QWEN-MATH模型的性能,但降低了Llama和Olmo模型的性能。

通过加强学习诱导代码推理(RL)

鉴于提示实验的成功,我们设计了一个额外的虚假奖励:只要模型的响应包含弦乐python,它就会得到奖励。这极大地鼓励所有模型使用代码推理(超过99的响应包括50个培训步骤后的代码)。

在下面的图表中,我们显示出类似的趋势,但是如果我们使用强化学习来训练模型以使用更多的Python代码,则效果将会更加重要。 QWEN-MATH和QWEN2.5-7B模型的性能得到了改善,而其他模型的性能已降低。

但是为什么要随机呢?

当我们看到训练曲线攀爬时,我们会感到困惑。完全毫无意义和无信息的奖励如何真正促进模型学习?

这种悖论促使我们在——领域寻找“伦敦分散”,就像电性原子仍然神秘地吸引彼此一样。深入研究GRPO后,我们发现裁剪术语可能是关键。我们通过三种方法消融切割因子:

(a)直接在损失计算中禁用裁剪。

(b)调整培训的批次大小和扣除额,以使推力模型与策略保持一致。

(c)减少推导的批量大小以保持等效条件。

方法(b)和(c)确保每个扣除步骤只有一个梯度更新,因此自然避免了作物约束。

当在QWEN2.5-MATH-7B模型中对GRPO中的裁剪项进行消融研究时,性能和代码推理频率。随机奖励与种植一起训练会增加代码推理模式并提高性能。

通过标准的GRPO裁剪,随机奖励将大约21的性能提高到QWEN2.5-MATH-7B并添加代码推理模式。但是,当我们通过上述三种方法中的任何一种消除种植作用时,随机奖励并没有带来任何改进。

我们推测这是由于GRPO公式本身的偏差,我们将在下面详细解释。在裁剪的作用下,没有教导随机奖励——的质量,它们会触发浓度效应,使模型集中在其现有的推理模式分布上。当裁剪被禁用时,这种集中机制完全消失。

启示和未来的工作

用户评论

抚笙

感觉这文章有点反向操作啊,明明说的是用更合适的奖励来改进模型性能问题,反而还被怀疑是刻意搞错了。现在这趋势是不是越来越“黑箱”了?

    有19位网友表示赞同!

限量版女汉子

我觉得LLM加RL确实很值得期待,以前很多问题都无法解决,比如文本生成的多样性和可控性。但是如果真的像文章说的那样故意用错奖励,那真是太令人失望了!希望有更多研究出来,让这领域更加透明和可靠。

    有10位网友表示赞同!

浮世繁华

数学基准显著提升是好事啊,这说明模型在理解和解决复杂问题的能力上有了很大进步,对吧?只是这个奖励设计的问题确实需要引起重视,感觉有点“狡兔三窟”的感觉,让人难以捉摸!

    有16位网友表示赞同!

人心叵测i

这篇文章说得真详细,让我更清楚了LLM加RL的运作方式。我觉得数学基准的提升只是表皮上的东西,更重要的是模型是否能够真的理解和应用知识,而不是仅仅把结果算出来就好。

    有12位网友表示赞同!

Edinburgh°南空

我之前还以为“刻意用错奖励”只是个耸人听闻的说法,没想到文章里还有详细的数据分析!这确实让人担心这种训练方式带来的后果。我们不应该去追求眼前的成果,而应该重视模型的真正可信度和安全性。

    有10位网友表示赞同!

太难

LLM加RL这块我一直关注,觉得很有潜力。但是这个“故意用错奖励”的说法确实让我有点毛骨悚然!难道AI未来都是这样被操控的吗?希望这种训练方式能够得到更好的澄清解释。

    有18位网友表示赞同!

来自火星球的我

数学基准的提升太夸张了吧!感觉跟之前的结果差太多了,是不是数据有什么问题?还是说LLM加RL真的有这么强?有点难以置信啊!

    有19位网友表示赞同!

旧事酒浓

我一直反对把AI当做黑盒子来对待。我们需要了解其训练过程和决策逻辑,才能真正信任算法的结果。这个“故意用错奖励”的说法更让人担忧了,看来我们更应该加强对AI技术的监管。

    有11位网友表示赞同!

笑叹★尘世美

其实我觉得这篇文章说的很客观,从不同的角度分析了LLM加RL的优缺点。只是希望未来研究能更加透明化,让我们更好地理解AI技术的发展方向。

    有5位网友表示赞同!

采姑娘的小蘑菇

我比较看重模型最终能够达到的效果。只要数学基准提升了,就说明模型在解决问题上更强大,是不是?至于训练方式具体是怎么用的,我觉得没那么重要啦!

    有8位网友表示赞同!

一生只盼一人

这篇文章让我感到有点不安。如果AI真的会被“故意用错奖励”来训练,那它未来的行为到底谁说了算呢?感觉我们即将踏入一个很危险的境界…

    有20位网友表示赞同!

*巴黎铁塔

数学基准提升确实可以证明模型的能力进步,但是不能完全代表模型的真实水平。很多时候,一些看似合理的指标并不代表其在实际应用场景中的表现力。

    有18位网友表示赞同!

封锁感觉

我对这篇文章的态度是持保留观望的。我们需要多方了解和分析才能得出结论,而不是盲目相信某个观点或者数据。毕竟LLM加RL还处于发展阶段,有很多问题需要探索和解决。

    有12位网友表示赞同!

凉凉凉”凉但是人心

我觉得这个“故意用错奖励”的说法很有可能是误导性的。研究人员很可能是在尝试一些新的训练方法,而并非刻意想要让模型出错。有些时候,看似错误的策略反而能够带来意想不到的效果。

    有18位网友表示赞同!

←极§速

对于AI技术的发展,我认为我们应该保持理性思考和科学态度。过于相信或是恐惧宣传都会给我们带来负面影响。

    有16位网友表示赞同!

标题:LLM Plus RL受到质疑:故意使用错误的奖励,数学基准也得到了显着改善,并且AI圈已经爆炸了
链接:https://www.zhangqiushi.com/news/sypc/23071.html
版权:文章转载自网络,如有侵权,请联系删除!
资讯推荐
更多
绯红之境兑换码最新2021 礼包兑换码大全

绯红之境兑换码最新2021 礼包兑换码大全[多图],绯红之境兑换码怎么领取?绯红之境兑换码有哪些?绯红之境在今日

2025-07-14
妄想山海怎么加好友 加好友方法大全

妄想山海怎么加好友 加好友方法大全[多图],妄想山海添加好友功能在哪里?妄想山海添加好友的方法是什么?好友添

2025-07-14
三国群英传7霸王再临攻略 霸王再临攻略技巧开启方法

三国群英传7霸王再临攻略 霸王再临攻略技巧开启方法[多图],三国群英传7霸王再临怎么玩?三国群英传7霸王再临

2025-07-14
江南百景图又见桃花村钓鱼位置在哪?又见桃花村钓鱼攻略

江南百景图又见桃花村钓鱼位置在哪?又见桃花村钓鱼攻略[多图],江南百景图又见桃花村钓鱼怎么钓?又见桃花村钓

2025-07-14