中国电子：DeepSeek-R1能力跃升，支撑“小模型大能力”的新路径

2025-06-03 13:21:28 研报

（以下内容从海通**《**电子：DeepSeek-R1能力跃升，支撑“小模型大能力”的新路径》研报附件原文摘录）
事件：
2025年5月29日，DeepSeek在开源平台HuggingFace发布了其R1模型的**版本――DeepSeek-R1-0528。此次更新虽被官方称为“小版本试升级”，但在多个关键能力上实现了显著提升。
点评：
思维深度与推理能力大幅增强，本次R1版本虽然基于去年12月发布的DeepSeekV3Base模型，但通过加大后训练阶段的算力投入，显著增强了“深度思考”能力。新版模型在多个基准测试中表现出色，整体水平接近OpenAIo3与Gemini2.5Pro。
AIME2025成绩跃升：在高阶数学测试AIME2025中，R1-0528准确率从旧版的70%提升至87.5%。
token使用量翻倍：平均每题思考token数从12K增加至23K，反映出更复杂、更深入的思维路径建构。
推理链蒸馏价值凸显：R1-0528的“思维链”被蒸馏到小模型Qwen3-8BBase，产出DeepSeek-R1-0528-Qwen3-8B，其在AIME2024中准确率超过Qwen3-8B（ 10%），达到Qwen3-235B相当水平。
DeepSeek团队认为，这条高质量推理链不仅对学术界的推理研究具有参考价值，也对工业界“小模型大能力”实践具有重要意义。
新版DeepSeek-R1-0528在通用能力方面实现了**提升。首先，在改写润色、摘要生成和阅读理解等任务中，幻觉率下降了45-50%，显著增强了输出结果的准确性与实用性；其次，模型在创意写作上也进行了优化，能够生成篇幅更长、结构更完整、风格更贴近人类偏好的议论文、小说和散文等长篇文本，写作表现更加成熟；此外，R1-0528新增支持FunctionCalling和JSONOutput，具备函数级任务调用和结构化输出能力。在Tau-Bench测试中，其在airline场景达到53.5%、retail场景达到63.9%，整体表现接近OpenAIo1-high，虽与o3-High和Claude4Sonnet仍有差距，但在开源模型中已属**水平。
风险提示：1）AI需求不及预期；2）地缘政治环境干扰供应链；3）AI数据**建造放缓

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件举报，一经查实，本站将立刻删除。 本文链接：/yb/58618.html