news 2026/4/18 11:00:21

智谱开源GLM-OCR:0.9B小模型在复杂文档处理登顶SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
智谱开源GLM-OCR:0.9B小模型在复杂文档处理登顶SOTA

智谱AI正式开源发布GLM-OCR,这款参数量仅 0.9B 的模型以 “小尺寸、高精度” 的特性打破了行业记录。在权威榜单 OmniDocBench V1.5 中,它以 94.6 的高分超越多款同类模型,展现了在手写公式、多语混排及印章识别等复杂文档场景下的统治级能力,为行业提供了高效的专业级OCR解决方案。

核心能力与技术架构

GLM-OCR 采用独特的 “编码器 - 解码器” 架构,通过极致的参数效率实现了性能与成本的双重突破。

关键技术指标

轻量部署:总参数量仅 0.9B,完美支持 vLLM、SGLang 和 Ollama 等主流推理框架,大幅降低了部署门槛。

SOTA性能:在 OmniDocBench V1.5 综合评测中斩获 94.6 分,在文本识别、公式解析、表格还原及信息抽取四大维度均表现优异,性能接近 Gemini-3-Pro(据公开报道)。

极致速度:在同等硬件条件下(单副本单并发),PDF 文档处理吞吐量达 1.86 页/秒,图片处理达 0.67 张/秒。

颠覆性成本:API 调用输入输出同价,仅需 0.2 元/百万 Tokens。1 元人民币即可处理约 2000 张 A4 扫描件或 200 份 10 页 PDF,成本仅为传统 OCR 方案的 1/10。

典型场景与落地效果

针对传统 OCR 难以处理的 “硬骨头”,GLM-OCR 进行了深度优化,在多种极端场景下实现了突破。

手写体与公式: 模型在复杂的数学公式识别及多语言混排文档中保持了极高的还原精度,有效解决了科研与教育场景的痛点。

复杂表格解析: 面对跨页、跨单元格及多层表头的复杂表格,GLM-OCR 能够直接理解逻辑结构并输出标准 HTML 代码,极大提升了数据录入与转换效率。

票据与卡证提取: 支持从各类非结构化票据中智能提取关键字段,并直接输出结构化的 JSON 数据,适配银行、保险及物流系统的自动化需求。

RAG支撑: 其高精度的识别能力与规整的 Markdown/JSON 输出格式,为检索增强生成(RAG)系统提供了高质量的数据底座。

行业应用与接入

GLM-OCR 的高性价比使其迅速覆盖了教育、科研、办公、政务、金融、保险及物流等多个核心行业。

在接入方面,智谱提供了灵活的 API 调用方式与批量处理工具。相比传统人工录入或昂贵的专用软件,GLM-OCR 将文档处理成本降低至 “白菜价”(1 元可处理海量文档)。未来,团队还将持续迭代,计划推出更多尺寸版本,并将能力拓展至更多语种及视频 OCR 领域。

AITOP100小编总结

GLM-OCR 以 “小尺寸、高精度” 重新定义了复杂文档处理的性价比标准。其在复杂版式、手写印章及多语混排下的卓越鲁棒性,叠加极低的部署成本与开放 API,正在推动文档解析技术从单一的 “工具” 向行业通用的 “基础设施” 演进。

文章来源:AITOP100

原文链接:https://www.aitop100.cn/infomation/details/33259.html

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/8 10:36:20

老板必须盯的5个生产指标,90%的工厂一个都没盯对!

我经常进厂,一进办公室就能看到老板桌上放着一摞报表:今日产量本月累计人均工时加班小时数成本统计看起来数据挺全,但真聊下去,结果基本都一样:交期还是不稳 质量还是反复 成本还是失控 现场还是乱问题不在没看数据&am…

作者头像 李华
网站建设 2026/4/14 18:02:36

普推知产:申请注册商标注意不规范汉字字形!

最近普推知商标老杨又看到同行发的,某企业因为申请注册商标用的不规范文字字形,这个手写的文字,以前见过还有用AI生成的文字,设计的文字,如果不规范,容易使未成人对书写产生错误认知,易产生不良…

作者头像 李华
网站建设 2026/4/18 7:14:13

基因过表达细胞系 | 稳定过表达开发 | 高表达克隆筛选

基因过表达细胞系是分子生物学与细胞生物学研究中广泛使用的一类标准实验模型,指在宿主细胞内引入外源基因或增强内源基因表达,使目标基因在细胞中持续、高于基础水平地表达。该类细胞系在蛋白表达分析、信号通路研究、细胞表型观察等基础研究场景中具有…

作者头像 李华
网站建设 2026/4/17 21:40:52

华为HCIP-Datacom H12-821题库(带详细解析)

整理了一部分题库,完整版已经上传到“题主”小程序上了,需要的同学可以自己去找一下。 SDN的网络体系架构主要分为以下哪几种? A:协同应用层 B:逻辑层 C:转发层 D:控制层 答案:…

作者头像 李华
网站建设 2026/3/13 8:09:14

在鸿蒙中实现实时语音与视频传输:架构思路 + 可跑 Demo 全解析

摘要 随着智能设备形态越来越多,单一设备已经很难满足复杂的交互需求。语音通话、视频通话、远程协作、跨设备互动,已经成为智能终端中非常基础但又非常“技术密集”的能力。 在鸿蒙系统中,虽然没有直接提供“一行代码就能视频通话”的接口&a…

作者头像 李华