近日,英伟达正式发布了全新的推理模型套件——OpenReasoning-Nemotron。这一创新性解决方案包含四个基于Qwen-2.5微调的预训练语言模型,其参数规模分别为1.5B、7B、14B和32B,均源自DeepSeek R1 0528大模型(6710亿参数)。通过先进的”蒸馏”技术,英伟达成功将这一超大规模模型进行了有效压缩,使其实现更轻量化部署。如今,开发者无需依赖高性能GPU或高昂的云计算资源,只需标准游戏电脑即可开展高级推理实验。
该套件的核心优势在于其强大的数据支撑能力。英伟达借助NeMo Skills生成了涵盖数学、科学与编程领域的高质量解答数据集,包含超过500万个训练样本,并通过严格的监督学习方法对模型进行微调。
值得注意的是,这四个模型在各项测试中均展现出色表现。其中,32B规模的模型在AIME24数学竞赛中获得89.2分,在HMMT 2月赛中达到73.8分;即使是参数最少的1.5B模型也分别获得了55.5和31.5分,充分验证了其优秀的推理与解题能力。
OpenReasoning-Nemotron被定位为科研探索的理想工具。英伟达已将四个模型的完整检查点在Hugging Face平台开放下载,研究人员可在此基础上进行强化学习等深入研究或针对特定任务进行定制化优化。此外,该套件还支持”GenSelect模式”——对于每个问题,模型可以生成多个解答版本,并通过筛选找出最优解以提升准确率。
特别值得关注的是,此次发布的所有模型均未采用强化学习技术,仅使用了监督微调方法。这种选择为学术界和研究社区提供了一个纯净且处于技术前沿的起点,便于未来在强化学习领域开展深入探索。对于拥有高性能游戏GPU的个人开发者而言,这一套件使本地运行接近行业最先进水平的推理模型成为可能。