Logics-Parsing是什么
Logics-Parsing 是阿里巴巴开源的端到端文档解析模型,基于 Qwen2.5-VL-7B。通过强化学习优化文档布局分析和阅读顺序推断,能将 PDF 图像转换为结构化 HTML 输出,支持多种内容类型,包括普通文本、数学公式、表格、化学公式和手写中文字符。采用两阶段训练:第一阶段是监督微调,学习生成结构化输出;第二阶段是布局为中心的强化学习,优化文本准确性、布局定位和阅读顺序。在 LogicsParsingBench 基准测试中表现出色,尤其在纯文本、化学结构和手写内容解析方面优于其他方法。

Logics-Parsing的主要功能
- 端到端文档解析:Logics-Parsing 能将 PDF 图像直接转换为结构化的 HTML 输出,支持多种内容类型,包括普通文本、数学公式、表格、化学公式和手写中文字符。
© 版权声明
文章版权归作者所有,未经允许请勿转载。