(以下内容从海通**《**电子:DeepSeek-R1能力跃升,支撑“小模型大能力”的新路径》研报附件原文摘录)
事件:
2025年5月29日,DeepSeek在开源平台HuggingFace发布了其R1模型的**版本――DeepSeek-R1-0528。此次更新虽被官方称为“小版本试升级”,但在多个关键能力上实现了显著提升。
点评:
思维深度与推理能力大幅增强,本次R1版本虽然基于去年12月发布的DeepSeekV3Base模型,但通过加大后训练阶段的算力投入,显著增强了“深度思考”能力。新版模型在多个基准测试中表现出色,整体水平接近OpenAIo3与Gemini2.5Pro。
AIME2025成绩跃升:在高阶数学测试AIME2025中,R1-0528准确率从旧版的70%提升至87.5%。
token使用量翻倍:平均每题思考token数从12K增加至23K,反映出更复杂、更深入的思维路径建构。
推理链蒸馏价值凸显:R1-0528的“思维链”被蒸馏到小模型Qwen3-8BBase,产出DeepSeek-R1-0528-Qwen3-8B,其在AIME2024中准确率超过Qwen3-8B( 10%),达到Qwen3-235B相当水平。
DeepSeek团队认为,这条高质量推理链不仅对学术界的推理研究具有参考价值,也对工业界“小模型大能力”实践具有重要意义。
新版DeepSeek-R1-0528在通用能力方面实现了**提升。首先,在改写润色、摘要生成和阅读理解等任务中,幻觉率下降了45-50%,显著增强了输出结果的准确性与实用性;其次,模型在创意写作上也进行了优化,能够生成篇幅更长、结构更完整、风格更贴近人类偏好的议论文、小说和散文等长篇文本,写作表现更加成熟;此外,R1-0528新增支持FunctionCalling和JSONOutput,具备函数级任务调用和结构化输出能力。在Tau-Bench测试中,其在airline场景达到53.5%、retail场景达到63.9%,整体表现接近OpenAIo1-high,虽与o3-High和Claude4Sonnet仍有差距,但在开源模型中已属**水平。
风险提示:1)AI需求不及预期;2)地缘政治环境干扰供应链;3)AI数据**建造放缓