DeepSeek新版R1模型实际性能如何？第三方评测来了

南都N视频APP · AI前哨站

原创2025-06-05 20:19

5月29日，DeepSeek（深度求索）时隔四个月发布R1模型的升级版本。中文大模型权威测评机构SuperCLUE于6月4日发布的结果显示，新版R1模型的总体表现比旧版有所提升，超过OpenAI的o3模型，但相比于o4-mini(high)、谷歌Gemini 2.5 Pro Preview 05-06等模型仍有一定差距。

据DeepSeek介绍，更新后的DeepSeek-R1-0528模型，仍然使用2024年12月所发布的DeepSeek V3模型作为基座，但在后训练过程中投入了更多算力，显著提升了模型的思维深度与推理能力。当前国内所有模型中，R1模型升级版在数学、编程与通用逻辑等多个基准测评中取得领先，并且整体表现上已接近o3与 Gemini-2.5-Pro等国际顶尖模型。

DeepSeek还指出，相较于旧版 R1，新版模型在复杂推理任务中的表现有了显著提升。例如在衡量数学推理能力的AIME 2025测试中，新版模型准确率由旧版的 70% 提升至 87.5%。

SuperCLUE的测评结果显示，新版R1模型在榜单上超过o3，居于第四位，总分63.55，比旧版R1提升1.61分。相比之下，o4-mini(high)在被测模型中得分最高，为70.51分；Gemini 2.5 Pro preview 05-06为66.48分，居第二。

此外，R1模型新版本的指令遵循能力显著提升，得分为48.46，比旧版R1高17.09分，但相比于国际顶尖模型o3（66.95分）和o4-mini(high)（68.07分）仍有较大差距。

测评结果还发现，新版R1模型的平均输出长度显著增加，但推理能力比旧版R1低1.7分。推理任务总分由数学推理、科学推理、代码三个任务得分的平均值决定，新版R1和旧版R1主要差距在数学和科学推理任务上，代码任务上表现更优。

此前，DeepSeek更新R1模型时提到，新版R1 针对“幻觉”问题进行了优化。与旧版相比，更新后的模型在改写润色、总结摘要、阅读理解等场景中，幻觉率降低了45%-50%左右，能够有效地提供更为准确、可靠的结果。

SuperCLUE于6月5日发布的另一份测评结果显示，新版R1模型的中文幻觉率降低至13.86%，下降7.16个百分点，但与模型幻觉率指标上表现最好的豆包doubao-1.5-pro-32k模型仍有较大差距，后者的幻觉率仅为4.11%。此外，文本摘要和阅读理解任务上的幻觉率优化程度最为显著，分别降低9.27%和14.49%。

采写：南都记者杨柳

编辑：李玲

南都N视频，未经授权不得转载、授权联系方式
banquan@nandu.cc. 020-87006626

本文作者