开云体育
deepseek超强论文指令 探索奖开云体育励模型的可扩展性_中华网
deepseek超强论文指令 探索奖励模型的可扩展性!DeepSeek R2的研究进展显著。最近,DeepSeek和清华大学的研究者发表了一篇论文,探讨了奖励模型在推理时的Scaling方法。该论文提出了一种新的学习方法——自我原则点评调优(Self-Principled Critique Tuning, SPCT),旨在提升通用奖励建模在推理阶段的有效可扩展性。
强化学习(RL)已被广泛应用于大规模语言模型(LLM)的后训练阶段。通过RL激励LLMs的推理能力,采用合适的学习方法可以实现有效的推理时可扩展性。然而,RL面临的一个关键挑战是在多种领域中为LLMs获得准确的奖励信号。研究者发现,通过增加推理计算资源,可以提升通用查询场景下奖励建模的能力。
为此,他们提出了一种名为点式生成式奖励建模(Pointwise Generative Reward Modeling, GRM)的方法,以提高模型对不同输入类型的灵活适应能力,并具备推理阶段的可扩展潜力。SPCT通过在线RL训练促进GRM生成具有可扩展奖励能力的行为,即能够自适应生成评判原则并准确生成点评内容,从而构建出DeepSeek-GRM模型。
研究者还提出了DeepSeek-GRM-27B,基于Gemma-2-27B经过SPCT后训练而成。实验结果显示,SPCT显著提高了GRM的质量和可扩展性,在多个综合RM基准测试中优于现有方法和模型。此外,他们比较了DeepSeek-GRM-27B与更大规模模型的推理时间扩展性能,发现其在模型大小上的训练时间扩展性能更好。
为了进一步提升DeepSeek-GRM在生成通用奖励上的性能,研究团队引入了一个元奖励模型(meta RM)来引导投票过程,从而提升扩展性能。元RM是一个逐点标量模型,训练目标是判断DeepSeek-GRM生成的原则和评论是否正确。通过这种方式,可以从多个采样奖励中选出高质量的奖励进行最终投票,过滤掉低质量样本。
研究者的贡献包括提出SPCT方法、显著提升GRM在奖励质量和推理扩展性能方面的表现以及将SPCT应用于更大规模的LLM。这些方法不仅提升了模型的推理时扩展性,还证明了相比于单纯扩大模型参数量,推理阶段的扩展策略在性能上更具优势。