GLM-OCR是什么
GLM-OCR是智谱AI开源的轻量级多模态OCR模型,仅0.9B参数在OmniDocBench V1.5榜单以94.6分登顶SOTA。模型基于GLM-V架构,集成自研CogViT视觉编码器与轻量跨模态连接层,引入多Token预测损失和强化学习训练,在手写体、复杂表格、代码文档、印章、多语言混排等高难场景表现卓越。模型支持HTML表格、JSON结构化输出,推理速度达1.86页/秒,兼容vLLM/SGLang/Ollama部署,适用文档解析、票据提取、RAG等商业场景。
GLM-OCR的主要功能
- 通用文本识别:支持照片、截图、扫描件、PDF,识别印刷体、手写体、印章、代码等特殊文字。
- 复杂表格解析: 精准理解合并单元格、多层表头等结构,直接输出HTML代码,无需二次制表。
- 信息结构化提取:从卡证、票据、表格中智能提取关键字段,输出标准JSON格式,对接业务系统。
- 公式与代码识别:支持准确识别数学公式、程序代码等专业技术内容。
- 多语言与混排支持:支持处理竖排文字、多语言混排等复杂版式。
- 批量文档处理:支持大批量文档识别,输出规整格式,为RAG提供高质量数据基础。
© 版权声明
文章版权归作者所有,未经允许请勿转载。

