FireRed-OCR – 小红书开源的文档结构解析视觉语言模型

AI工具3周前发布
18 0

FireRed-OCR是什么

FireRed-OCR 是小红书团队开源的轻量级文档结构解析视觉语言模型,以仅 2B 参数的规模在 OmniDocBench v1.5 权威评测中斩获 92.94% 综合得分,超越 GPT-5.2、Gemini-3.0 Pro 及 Qwen3-VL-235B 等超大模型,实现了”小模型击败大模型”的突破。模型基于 Qwen3-VL-2B-Instruct 架构,采用三阶段渐进式训练策略。FireRed-OCR 专为解决文档解析中的”结构幻觉”问题设计,能精准提取复杂表格、数学公式、层级标题等内容,转换为标准 Markdown 格式。

FireRed-OCR – 小红书开源的文档结构解析视觉语言模型

FireRed-OCR的主要功能

  • 复杂表格提取:从杂乱 PDF 和扫描文档中精准识别并提取表格结构,保持行列对应关系,避免传统 OCR 常见的表格错乱问题。

© 版权声明

相关文章