昆仑万维发布开源Skywork-R1V 3.0多模态推理能力接近人类专家水平

AI资讯1年前 (2025)发布

157 0 0

7月9日，昆仑万维宣布其最新模型Skywork-R1V 3.0版本正式发布并开源。这一全新升级的多模态推理模型在多个领域展现了显著的技术突破。

Skywork-R1V 3.0通过强化学习策略，在后训练阶段深度优化了跨模态推理能力，实现了复杂逻辑建模与跨学科泛化的双提升。该版本基于Skywork-R1V 2.0的蒸馏数据进行”冷启动”，运用拒绝采样技术构建高质量多模态推理训练集，并结合开源视觉大模型InternVL-38B（38B参数）的特性，有效指导模型掌握多模态推理的基础格式与方法。

在优化过程中，团队引入了先进的GRPO（Group Relative Policy Optimization）强化学习算法，深度挖掘模型潜能。通过图像和文本模态间的推理迁移，显著提升了其跨模态、多学科场景下的理解分析能力。值得注意的是，Skywork-R1V 3.0仅需约1.2万条监督微调样本和1.3万条强化学习样本即可完成高效训练，充分体现了”小数据激发大能力”的优势。

在性能表现方面，Skywork-R1V 3.0于权威评测MMMU中取得76.0分的优异成绩，超越了Claude-3.7-Sonnet（75.0）和GPT-4.5（74.4）等闭源模型，逼近人类初级专家水平（76.2）。在更考验视觉推理能力的EMMA-Mini(CoT)评测中，该模型以40.3分的成绩领先于Qwen2.5-VL-72B-Instruct和InternVL3-78B等更大尺寸的开源模型，并显著缩小了与Claude-3.7-Sonnet闭源模型的差距。

在覆盖中小学知识点的MMK12评测中，Skywork-R1V 3.0以78.5分的成绩领先于Qwen2.5-VL-72B-Instruct、InternVL3-78B等开源模型以及GPT-4.5和GPT-4o等闭源模型。这一成绩充分证明了其在教育领域的广泛应用潜力。

与上一代相比，Skywork-R1V 3.0在物理、逻辑等多个关键领域实现了显著性能提升：

物理推理： 在权威评测PhyX-MC-Text-Minimal和SeePhys中分别取得52.8分和31.5分的开源最优成绩。模型不仅能够精准理解力学、电磁学等基础物理概念，还能有效处理图文结合的复杂物理问题（如解析受力分析图、电路示意图等专业图表），其物理推理水平已显著超过当前主流开源模型以及GPT-4.5和Gemini 2 Flash等部分闭源模型。

在逻辑推理领域，Skywork-R1V 3.0同样表现卓越：

逻辑推理： 在LogicVista测试中取得59.7分，在VisuLogic测试中取得28.5分。在MME-Reasoning评测中更是获得42.8分的佳绩，超越了Claude-4-Sonnet等闭源模型。这充分体现了Skywork-R1V 3.0在多模态逻辑一致性、条件推理和跨模态因果建模方面的领先能力。

在数学推理领域，R1V 3.0同样展现出色的解题能力：