GLM-OCR – 智谱开源的轻量级多模态OCR模型

AI工具6个月前发布

84 0 0

GLM-OCR是什么

GLM-OCR是智谱AI开源的轻量级多模态OCR模型，仅0.9B参数在OmniDocBench V1.5榜单以94.6分登顶SOTA。模型基于GLM-V架构，集成自研CogViT视觉编码器与轻量跨模态连接层，引入多Token预测损失和强化学习训练，在手写体、复杂表格、代码文档、印章、多语言混排等高难场景表现卓越。模型支持HTML表格、JSON结构化输出，推理速度达1.86页/秒，兼容vLLM/SGLang/Ollama部署，适用文档解析、票据提取、RAG等商业场景。

GLM-OCR – 智谱开源的轻量级多模态OCR模型

GLM-OCR的主要功能

通用文本识别：支持照片、截图、扫描件、PDF，识别印刷体、手写体、印章、代码等特殊文字。
复杂表格解析：精准理解合并单元格、多层表头等结构，直接输出HTML代码，无需二次制表。
信息结构化提取：从卡证、票据、表格中智能提取关键字段，输出标准JSON格式，对接业务系统。
公式与代码识别：支持准确识别数学公式、程序代码等专业技术内容。
多语言与混排支持：支持处理竖排文字、多语言混排等复杂版式。
批量文档处理：支持大批量文档识别，输出规整格式，为RAG提供高质量数据基础。

# AI工具 # [db:标签]

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

优必选晒机器人打网球视频，被质疑动作剪辑

99 0

有望挑战传统机翻，OpenAI 低调上线“ChatGPT 翻译”页面

94 0

AI助力显微镜研发低成本土壤真菌检测系统

96 0

科学家发现多数大语言模型测试标准存在缺陷，无法客观给出评分

54 0

马斯克的 Grok 聊天机器人系统提示词曝光：含沉迷阴谋论、言论癫狂的角色设定

101 0

Seedance 2.0 – 字节跳动推出的新一代AI视频生成模型

84 0

AI工具集平台！汇聚超2000+免费AI工具，涵盖AI写作、AI编程、AI绘画、AI论文、AI视频、AI生图、AI办公、AI学习、AI生成、agent等全场景工具。每日更新热门 AI工具，助您快速找到提升办公、创作、学习效率的实用工具！

按下Ctrl+D或⌘+D 感谢收藏 ai-gjj.com

友链申请免责声明广告合作关于我们站点地图提交AI工具

Copyright © 2026 AI工具集桂ICP备2025062026号