开云体育
DeepSeek新论文引发OpenAI反应挑战传统模型极限开云体育
近期,人工智能领域再次发生了一场引人注目的较量。DeepSeek与清华大学联合发布了一篇关键论文,题为《Inference-Time Scaling for Generalist Reward Modeling》,它提出了一种创新的方法——SPCT(Self-Principled Critique Tuning)。该研究旨在通过在线强化学习优化奖励信号生成,提高多元化任务的处理能力。而此时,OpenAI似乎感受到了压力,对外发出了一则“变卦”声明:关于GPT-5的发布,他们解读了出现的困难,表明整合所有内容比预期挑战更大,务求确保未来的能力和需求。
在DeepSeek的创新背后,研究显示出通用奖励模型(RM)在复杂任务时的局限性,尤其是对灵活性和准确性的双重需求。SPCT方法的提出正是为了应对这些挑战。其核心技术包括生成式奖励模型(GRM)和推理时扩展技术,这些新兴的机制能够在多次采样下生成高质量的奖励信号,使得模型更具适应性和动态性能。
通过大量的实验测试,结果表明DeepSeek-GRM-27B在多项基准测试上表现优异,准确率显著超过传统的标量RM,尤其是在RewardBench准确率从86.0%提升到90.4%的成果,展现了推理时扩展的有效性。
在这场技术角力中,DeepSeek用其前沿的研究成果引发了OpenAI的迅速反应,显示出当前AI领域竞争的激烈与动态。同时,OpenAI不仅响应挑战,还暗示其团队即将发布关于自身的两本新书,进一步吸引公众关注。这场科学技术的竞赛,无疑会在未来引领更多创新思维。返回搜狐,查看更多