DeepSeek新版R1模型实际性能如何?第三方评测来了

南方都市报APP • AI前哨站
原创2025-06-05 20:19

5月29日,DeepSeek(深度求索)时隔四个月发布R1模型的升级版本。中文大模型权威测评机构SuperCLUE于6月4日发布的结果显示,新版R1模型的总体表现比旧版有所提升,超过OpenAI的o3模型,但相比于o4-mini(high)、谷歌Gemini 2.5 Pro Preview 05-06等模型仍有一定差距。

据DeepSeek介绍,更新后的DeepSeek-R1-0528模型,仍然使用2024年12月所发布的DeepSeek V3模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。当前国内所有模型中,R1模型升级版在数学、编程与通用逻辑等多个基准测评中取得领先,并且整体表现上已接近o3与 Gemini-2.5-Pro等国际顶尖模型。

DeepSeek还指出,相较于旧版 R1,新版模型在复杂推理任务中的表现有了显著提升。例如在衡量数学推理能力的AIME 2025测试中,新版模型准确率由旧版的 70% 提升至 87.5%。

SuperCLUE的测评结果显示,新版R1模型在榜单上超过o3,居于第四位,总分63.55,比旧版R1提升1.61分。相比之下,o4-mini(high)在被测模型中得分最高,为70.51分;Gemini 2.5 Pro preview 05-06为66.48分,居第二。

图片

此外,R1模型新版本的指令遵循能力显著提升,得分为48.46,比旧版R1高17.09分,但相比于国际顶尖模型o3(66.95分)和o4-mini(high)(68.07分)仍有较大差距。

测评结果还发现,新版R1模型的平均输出长度显著增加,但推理能力比旧版R1低1.7分。推理任务总分由数学推理、科学推理、代码三个任务得分的平均值决定,新版R1和旧版R1主要差距在数学和科学推理任务上,代码任务上表现更优。

此前,DeepSeek更新R1模型时提到,新版R1 针对“幻觉”问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了45%-50%左右,能够有效地提供更为准确、可靠的结果。

SuperCLUE于6月5日发布的另一份测评结果显示,新版R1模型的中文幻觉率降低至13.86%,下降7.16个百分点,但与模型幻觉率指标上表现最好的豆包doubao-1.5-pro-32k模型仍有较大差距,后者的幻觉率仅为4.11%。此外,文本摘要和阅读理解任务上的幻觉率优化程度最为显著,分别降低9.27%和14.49%。

 

采写:南都记者 杨柳

编辑:李玲

南都新闻,未经授权不得转载。授权联系方式
banquan@nandu.cc. 020-87006626