Phi-4-reasoning-vision-15B – 微软开源的多模态推理模型

AI工具2周前发布
15 0

Phi-4-reasoning-vision-15B是什么

Phi-4-reasoning-vision-15B是微软开源的150亿参数多模态推理模型,基于Phi-4-Reasoning语言模型和SigLIP-2视觉编码器构建。模型采用”混合推理”设计,能自动判断何时需要深度思考(数学/科学题)或快速响应(OCR/描述任务),在仅2000亿token训练数据下实现了精度与效率的平衡,模型尤其擅长GUI理解、数学推理和文档分析,推理速度比同类大模型快10倍以上。

Phi-4-reasoning-vision-15B – 微软开源的多模态推理模型

Phi-4-reasoning-vision-15B的主要功能

  • 通用视觉理解:模型能分析图像内容生成描述,回答关于图像的问题,识别物体、场景和文字信息。

© 版权声明

相关文章