7月9日,昆仑万维宣布其最新模型Skywork-R1V 3.0版本正式发布并开源。这一全新升级的多模态推理模型在多个领域展现了显著的技术突破。
Skywork-R1V 3.0通过强化学习策略,在后训练阶段深度优化了跨模态推理能力,实现了复杂逻辑建模与跨学科泛化的双提升。该版本基于Skywork-R1V 2.0的蒸馏数据进行”冷启动”,运用拒绝采样技术构建高质量多模态推理训练集,并结合开源视觉大模型InternVL-38B(38B参数)的特性,有效指导模型掌握多模态推理的基础格式与方法。
在优化过程中,团队引入了先进的GRPO(Group Relative Policy Optimization)强化学习算法,深度挖掘模型潜能。通过图像和文本模态间的推理迁移,显著提升了其跨模态、多学科场景下的理解分析能力。值得注意的是,Skywork-R1V 3.0仅需约1.2万条监督微调样本和1.3万条强化学习样本即可完成高效训练,充分体现了”小数据激发大能力”的优势。
在性能表现方面,Skywork-R1V 3.0于权威评测MMMU中取得76.0分的优异成绩,超越了Claude-3.7-Sonnet(75.0)和GPT-4.5(74.4)等闭源模型,逼近人类初级专家水平(76.2)。在更考验视觉推理能力的EMMA-Mini(CoT)评测中,该模型以40.3分的成绩领先于Qwen2.5-VL-72B-Instruct和InternVL3-78B等更大尺寸的开源模型,并显著缩小了与Claude-3.7-Sonnet闭源模型的差距。
在覆盖中小学知识点的MMK12评测中,Skywork-R1V 3.0以78.5分的成绩领先于Qwen2.5-VL-72B-Instruct、InternVL3-78B等开源模型以及GPT-4.5和GPT-4o等闭源模型。这一成绩充分证明了其在教育领域的广泛应用潜力。
与上一代相比,Skywork-R1V 3.0在物理、逻辑等多个关键领域实现了显著性能提升:
- 物理推理: 在权威评测PhyX-MC-Text-Minimal和SeePhys中分别取得52.8分和31.5分的开源最优成绩。模型不仅能够精准理解力学、电磁学等基础物理概念,还能有效处理图文结合的复杂物理问题(如解析受力分析图、电路示意图等专业图表),其物理推理水平已显著超过当前主流开源模型以及GPT-4.5和Gemini 2 Flash等部分闭源模型。
在逻辑推理领域,Skywork-R1V 3.0同样表现卓越:
- 逻辑推理: 在LogicVista测试中取得59.7分,在VisuLogic测试中取得28.5分。在MME-Reasoning评测中更是获得42.8分的佳绩,超越了Claude-4-Sonnet等闭源模型。这充分体现了Skywork-R1V 3.0在多模态逻辑一致性、条件推理和跨模态因果建模方面的领先能力。
在数学推理领域,R1V 3.0同样展现出色的解题能力:
- 数学推理: 在权威评测MathVista、MathVerse和MathVision上分别取得77.1分、59.6分和52.6分的成绩,领先于Qwen2.5-VL-72B-Instruct、InternVL3-78B、QVQ-72B-Preview等开源模型。
如需获取Skywork-R1V 3.0模型或相关技术报告,请参考以下链接:
- HuggingFace地址:https://huggingface.co/Skywork/Skywork-R1V3-38B
- GitHub地址:https://github.com/SkyworkAI/Skywork-R1V
- 技术报告:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V3.pdf