FireRed-OCR – 小红书开源的文档结构解析视觉语言模型

AI工具5个月前发布

58 0 0

FireRed-OCR是什么

FireRed-OCR 是小红书团队开源的轻量级文档结构解析视觉语言模型，以仅 2B 参数的规模在 OmniDocBench v1.5 权威评测中斩获 92.94% 综合得分，超越 GPT-5.2、Gemini-3.0 Pro 及 Qwen3-VL-235B 等超大模型，实现了”小模型击败大模型”的突破。模型基于 Qwen3-VL-2B-Instruct 架构，采用三阶段渐进式训练策略。FireRed-OCR 专为解决文档解析中的”结构幻觉”问题设计，能精准提取复杂表格、数学公式、层级标题等内容，转换为标准 Markdown 格式。

FireRed-OCR – 小红书开源的文档结构解析视觉语言模型

FireRed-OCR的主要功能

复杂表格提取：从杂乱 PDF 和扫描文档中精准识别并提取表格结构，保持行列对应关系，避免传统 OCR 常见的表格错乱问题。

# AI工具 # [db:标签]

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

MiniMax 更新 M2.1 模型，重点聚焦于更多编程语言和办公场景的可用性

115 0

马斯克的 AI 百科全书 Grokipedia 引争议：部分内容逐字照搬维基百科

119 0

Agent HQ – GitHub推出的集成AI智能体平台

67 0

TuriX-CUA – 开源AI桌面Agent，自动进行屏幕识别和操作

95 0

Meta回应：未用用户未发照片训练AI

92 0

维基百科解析 AI 文字内容“套路”：从语气到格式的常见破绽

157 0

AI工具集平台！汇聚超2000+免费AI工具，涵盖AI写作、AI编程、AI绘画、AI论文、AI视频、AI生图、AI办公、AI学习、AI生成、agent等全场景工具。每日更新热门 AI工具，助您快速找到提升办公、创作、学习效率的实用工具！

按下Ctrl+D或⌘+D 感谢收藏 ai-gjj.com

友链申请免责声明广告合作关于我们站点地图提交AI工具

Copyright © 2026 AI工具集桂ICP备2025062026号