Qianfan-VL – 百度开源的视觉理解模型

AI工具6个月前发布

57 0 0

Qianfan-VL是什么

Qianfan-VL是百度智能云千帆推出的面向企业级多模态应用场景的视觉理解大模型。模型包含3B、8B和70B三种尺寸版本，具备出色的通用能力和针对OCR、教育等垂直场景的专项强化能力。模型基于开源模型开发，在百度自研昆仑芯P800上完成全流程计算任务，展现出卓越的性能和效率。Qianfan-VL支持多模态任务，如复杂图表理解、视觉推理、数学解题等，为企业级应用提供高精度的视觉理解解决方案。

Qianfan-VL的主要功能

多尺寸模型：提供3B、8B、70B三种规格的模型，满足不同规模企业和开发者的多样化需求，从端上实时场景到复杂推理计算场景都能适用。
OCR与文档理解增强：具备全场景OCR识别能力，能精准识别手写体、数学公式、自然场景文字等，支持对卡证票据信息进行结构化提取；同时，复杂版面文档理解能力突出，能自动分析版面元素，精准解析表格、图表，实现文档智能问答与结构化解析。
思考推理能力：8B和70B模型支持通过特殊token激活思维链能力，覆盖复杂图表理解、视觉推理、数学解题等多种复杂场景，能结合视觉信息与外部知识进行组合推理，提供清晰的解题思路和步骤展示。
通用能力：在通用多模态任务中表现出色，如物体识别、图像描述、视觉问答等，支持中英文混合理解，具备良好的跨模态对齐能力，为不同场景下的智能应用提供了有力支撑。

Qianfan-VL的技术原理

多模态架构：3B模型基于Qwen2.5架构，8B和70B模型基于Llama 3.1架构，通过3T中英文语料进行词表扩充和本地化增强，支持中英文混合理解。基于InternViT初始化，支持动态分块处理不同分辨率图像，最高支持4K分辨率输入。通过MLP适配器实现视觉和语言模态的无缝桥接，确保信息传递的准确性和效率。