开云体育
开云APP下载DeepSeek埋头“小更新”又打了模圈一个措手不及
29号,深度求索赶在端午假期到来前正式完成了DeepSeek R1模型的小版本升级,消息一出模圈哗然。自从2月份红遍国内外后DeepSeek一直是以模型供应商的身份活跃在大模型圈的“幕后”版块,鲜少有在一线露面的机会,更多的是各家采购商只言片语的提及,没想到再听见发声,已是憋出来个升级的时候:
现在DeepSeek R1已经升级为最新的DeepSeek-R1-0528,用户可通过官方网站、APP 或小程序进入对话界面后,开启“深度思考”功能即可体验最新版本。API 也已同步更新,调用方式不变。
作为一个深度思考模型,本次升级自然是绕不开深度思考能力的强化。具体而言,DeepSeek-R1-0528仍然使用的是去年12月发布的DeepSeek V3 Base模型作为基座模型进行训练,但在后训练过程中投入了更多算力,以此达到了显著提升模型思维深度与推理能力的效果。
根据官方披露,更新后的R1在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩,并且在整体表现上已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro:
可以看到相较于旧版本R1,新版R1在复杂推理任务中的表现有非常显著的提升,真正追平国际顶尖水平。具体在 AIME 2025测试中,新版模型准确率由旧版的 70% 提升至 87.5%。根据官方解释,这是得益于模型在推理过程中的思维深度增强:在 AIME 2025 测试集上,旧版模型平均每题使用 12K tokens,而新版模型平均每题使用 23K tokens,表明其在解题过程中进行了更为详尽和深入的思考。
至于具体体验如何,我们一起来看看快速上手测试的结果。下图是我让全新DeepSeek R1进行自我介绍的聊天过程:
可以看到现在的R1相比先前版本有了更流畅更清晰的回答过程,不论是思考链还是正式生成内容,甚至有非常贴心的对比和总结,都用了一些特殊符号标注出来。
这些充分的交互功能在过去的R1版本是所不曾体现,当时大家还在调侃DeepSeek过于活人感,有一股机器人魔性的疯癫美,但现在看来,全新R1的工具化进程明显,更有个人通用助手的味道,这在当下强调agent通用处理能力的形势下具有一定意义。
当然除了针对深度思考生成结果本身提升来说,这次也同步升级了许多其他的特点,比如针对翻译内容的优化:
可以看见翻译得非常准确,而且非常有人味,当我们要求翻译Love loves to love love ,遵循信达雅时:
R1能够自动匹配到林语堂先生的语录,并且能够帮我们去对比与直译的差别,可谓是文科强者,这在先前版本的R1那个理工脑子是不存在的。
prompt:你能为我创建一个基于情绪的食谱生成器吗?它应该询问用户的情绪,然后根据他们拥有的食材推荐食谱。它应该有明亮自然的主题,搭配纤细且美观的字体,并且应该是动画的和互动的。不要使用紫色暗色调主题,主题就由你的创造力来决定。
可以看到质量尚可,当然R1并不是编程agent,生成的内容无法自带后端,但是这个前端编程能力已经在所实际体验过的深度思考agent里属于头部水平了。
同时,在旧版R1的基础上,更新后的 R1 模型针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格,像这里我要求R1以端午和六一为背景写一篇抒情散文诗,首先散文诗这个格式的文章本来就不多见,其次我还特别要求以近代著名文学家端木蕻良的文风来创作:
可以看见生成内容文学气质直接拉爆了,标题这个“端午与六一的断章”就起得非常有意境,并且内容辞藻在保证华丽的基础上,多多添了白描的手法,保证了整体内容散形不散的文种特点。
除了这些比较明显的更新外,新版 DeepSeek R1 针对“幻觉”问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了 45~50% 左右,能够有效地提供更为准确、可靠的结果。同时DeepSeek-R1-0528 支持工具调用(不支持在 thinking 中进行工具调用)。虽然目前水平与 o3-High 以及 Claude 4 Sonnet 仍有差距,但Tau-Bench 测评成绩为 airline 53.5% / retail 63.9%,已经做到了OpenAI o1-high 相当。
DeepSeek这一次的更新,API 已同步更新,接口与调用方式保持不变。新版 R1 API 仍支持查看模型思考过程,同时还增加了 Function Calling 和 JsonOutput 的支持。同时对新版 R1 API 中 max_tokens 参数的含义做了调整:现在 max_tokens用于限制模型单次输出的总长度(包括思考过程),默认为 32K,最大为 64K。如果用户对更长的上下文长度有需求,可以通过其他第三方平台调用上下文长度为 128K 的开源版本 R1-0528 模型。
和之前的操作一样,这次的模型也同步开源。DeepSeek-R1-0528 与之前的 DeepSeek-R1 使用同样的 base 模型,仅改进了后训练方法。私有化部署时只需要更新 checkpoint 和 tokenizer_config.json(tool calls 相关变动)。模型参数为 685B(其中 14B 为 MTP 层),开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。与旧版本的 DeepSeek-R1 保持一致,此次我们的开源仓库(包括模型权重)仍然统一采用 MIT License,并允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。
就在DeepSeek发布全新R1的第二天,火山引擎和腾讯就前后脚更新了最新版:
很明显各大厂商并没有被这场突袭搞蒙圈,反倒是给了DeepSeek一个强制爱,可见现阶段各家大厂对于行业最新的前沿技术跟进非常用心。DeepSeek-R1-0528的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。现阶段已经进入大模型存续阶段,谁有丝毫懈怠就会被落下身位。半年已过,DeepSeek全新R1也正式拉开了下半年的模圈大战,期待未来行业的发展,特别是以后R2的来袭。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。