Logics-Parsing – 阿里开源的端到端文档解析模型

AI工具10个月前发布

76 0 0

Logics-Parsing是什么

Logics-Parsing 是阿里巴巴开源的端到端文档解析模型，基于 Qwen2.5-VL-7B。通过强化学习优化文档布局分析和阅读顺序推断，能将 PDF 图像转换为结构化 HTML 输出，支持多种内容类型，包括普通文本、数学公式、表格、化学公式和手写中文字符。采用两阶段训练：第一阶段是监督微调，学习生成结构化输出；第二阶段是布局为中心的强化学习，优化文本准确性、布局定位和阅读顺序。在 LogicsParsingBench 基准测试中表现出色，尤其在纯文本、化学结构和手写内容解析方面优于其他方法。

Logics-Parsing – 阿里开源的端到端文档解析模型

Logics-Parsing的主要功能

端到端文档解析：Logics-Parsing 能将 PDF 图像直接转换为结构化的 HTML 输出，支持多种内容类型，包括普通文本、数学公式、表格、化学公式和手写中文字符。

# AI工具 # [db:标签]

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

TranslateGemma – 谷歌开源的系列翻译模型

87 0

特斯拉第三代人形机器人预计明年在中国市场实现量产

91 0

DAMO GRAPE – 阿里达摩院联合浙江肿瘤医院推出的早期胃癌识别模型

91 0

Koncile – AI文档提取工具，转换为结构化数据

81 0

Qwen-Image-Layered – 阿里推出的AI图像编辑模型

116 0

上海：对达到一定算力租用规模的具身智能企业，给予最高 4000 万元 / 年算力券支持

160 0

AI工具集平台！汇聚超2000+免费AI工具，涵盖AI写作、AI编程、AI绘画、AI论文、AI视频、AI生图、AI办公、AI学习、AI生成、agent等全场景工具。每日更新热门 AI工具，助您快速找到提升办公、创作、学习效率的实用工具！

按下Ctrl+D或⌘+D 感谢收藏 ai-gjj.com

友链申请免责声明广告合作关于我们站点地图提交AI工具

Copyright © 2026 AI工具集桂ICP备2025062026号