能本地跑,复杂文档识别,0.9B小模型,GLM-OCR开源即巅峰(附源码)

首页 编程分享 PHP丨JAVA丨OTHER 正文

悟空码字 转载 编程分享 2026-02-07 22:04:46

简介 直接说正事,智谱把自家的新一代OCR模型 GLM-OCR 直接开源了,而且一上来就是“小身材、大能量”的路线。


大家好,我是小悟。

直接说正事,智谱把自家的新一代OCR模型 GLM-OCR 直接开源了,而且一上来就是“小身材、大能量”的路线。

参数只有0.9B,却在权威的 OmniDocBench V1.5 榜单上拿了 94.6 分,在文本、公式、表格、信息抽取这几项里都冲到了 SOTA。

🤯 痛点:传统OCR的“老大难”

用过传统OCR工具的朋友,大概率都遇到过这些场景:

扫描版PDF:稍微模糊一点,或者表格跨页,出来的结果就是一团乱码,不是缺行少列,就是数字对不上。

手写体:学生的作业、医生的处方,识别率直接“跳水”,最后还是得靠人肉校对。

复杂表格:合并单元格、多层表头,识别出来就是一维文本,想还原成可用的表格,得手动调整半天。

公式截图:好不容易拍清楚,OCR 出来的却是一串看不懂的符号,想转成 LaTeX 更是奢望。

印章与文本重叠:盖章文件要提取信息,常常被印章盖住关键字段,传统方法很难把两者干净地分开。

多语言混排:中英文、数字、符号挤在一起,识别结果经常出现“串台”的尴尬情况。

很多方案为了效果,模型动辄几个B、几十B的参数,部署起来对显卡和内存要求很高,普通开发者和小团队只能望而却步。

成本也是个现实问题,按量计费、并发限制,处理海量历史文档时,账单会让人心头一紧。

所以,当我看到 GLM-OCR 的参数和定位时,心里想的是:这模型,能顶。

🧠 GLM-OCR:麻雀虽小,五脏俱全

GLM-OCR 是智谱基于 GLM-V 系列“视觉编码器 + 语言解码器”思路,专门为文档理解打造的一款多模态OCR模型。它的核心特点可以概括为:小、准、全、快、便宜。

小:模型总参数约 0.9B(其中视觉编码器约 400M,语言解码器约 0.5B),体积和显存占用都控制得很好,普通显卡甚至 CPU 环境都有机会跑起来。

准:在 OmniDocBench V1.5 综合榜单上拿到 94.6 分,在文本、公式、表格、信息抽取等多个子任务中都达到了 SOTA 或接近 SOTA 的水平。

全:它不只是“识字”,而是能理解整个文档的版式。官方重点优化了六大真实业务场景:代码文档、复杂表格、手写体、多语言、印章识别、票据提取。

快:官方测试数据显示,单副本单并发下,处理 PDF 的吞吐量约 1.86 页/秒,处理图片约 0.67 张/秒,速度在同类小参数模型里很有竞争力。

便宜:官方 API 定价为 0.2 元/百万 Tokens,1 块钱大概能处理 2000 张 A4 扫描图或 200 份 10 页的 PDF,成本约为传统 OCR 方案的十分之一。

从技术架构上看,GLM-OCR 采用了“视觉编码器 → 跨模态连接层 → 语言解码器”的三级结构。

并引入了多 Tokens 预测损失(MTP)和全任务强化学习等训练策略,让模型在有限参数下也能学到更强的上下文理解和泛化能力。

🚀 核心功能:不止于“识字”

GLM-OCR 的功能覆盖了从简单识别到复杂理解的多个层次,实用性很强。

通用文本识别

支持照片、截图、扫描件、PDF 等多种输入,能较好地应对手写体、印章、代码截图等特殊内容。

对于学生、科研人员、程序员等需要数字化笔记或文档的人来说,非常友好。

复杂表格解析

能理解合并单元格、多层表头、斜线表头等复杂结构,并直接输出 HTML 表格代码,无需二次制表。

对于财务、运营、数据分析等经常处理报表的岗位,这能节省大量时间。

手写公式识别

能将手写或打印的公式截图准确地转换成 LaTeX 格式,保留上下标、分式、根号等复杂结构。

对于理工科师生和科研人员,这简直是“解放生产力”的神器。

信息结构化提取

支持通过 JSON Schema 模板,从发票、证件、报关单等文档中自动提取关键字段并输出结构化 JSON 数据。

这对于需要对接业务系统、构建自动化流程的开发者来说,价值巨大。

批量处理与 RAG 支持

支持大批量文档解析,其高精度和规整的输出格式,非常适合作为检索增强生成(RAG)系统的前置文档解析模块,为上层大模型提供高质量的“燃料”。

💻 使用体验:本地与云端部署

GLM-OCR 提供了多种灵活的接入方式,无论是开发者还是普通用户,都能找到适合自己的玩法。

本地/私有化部署:支持 vLLM、SGLang、Ollama多种主流框架。对于注重数据隐私或有本地化部署需求的用户,非常友好。

云端 API 调用:智谱开放平台提供了标准的 API 接口,按量计费,接入成本和使用门槛都很低。

本地安装

# Install from source
git clone https://github.com/zai-org/glm-ocr.git
cd glm-ocr
uv venv --python 3.12 --seed && source .venv/bin/activate
uv pip install -e .
# Install transformers from source
uv pip install git+https://github.com/huggingface/transformers.git


# Parse a single image
glmocr parse examples/source/code.png


# Parse a directory
glmocr parse examples/source/


# Set output directory
glmocr parse examples/source/code.png --output ./results/


# Use a custom config
glmocr parse examples/source/code.png --config my_config.yaml


# Enable debug logging with profiling
glmocr parse examples/source/code.png --log-level DEBUG


from glmocr import GlmOcr, parse


# Simple function
result = parse("image.png")
result = parse(["img1.png", "img2.jpg"])
result = parse("https://example.com/image.png")
result.save(output_dir="./results")


# Note: a list is treated as pages of a single document.


# Class-based API
with GlmOcr() as parser:
    result = parser.parse("image.png")
    print(result.json_result)
    result.save()

开源社区

1.开源地址
Githubhttps://github.com/zai-org/GLM-OCR
Hugging Facehttps://huggingface.co/zai-org/GLM-OCR

2.模型API
智谱开放平台:https://docs.bigmodel.cn/cn/guide/models/vlm/glm-ocr
特惠尝鲜礼包上线,2.9元享5000Tokenshttps://bigmodel.cn/special_area
Z.ai:https://docs.z.ai/guides/vlm/glm-ocr

3.在线体验
Z.ai:https://ocr.z.ai

👍 为什么推荐它?

结合我自己的感受,推荐 GLM-OCR 的理由主要有以下几点:

开源免费,自主可控:基于 Apache-2.0 license 协议开源,个人和企业都可以免费使用、二次开发和商用。

性能强劲,性价比高:0.9B 的小参数,却在多个权威榜单上取得了顶尖成绩,真正做到了“小而美”。

同时,无论是本地部署的成本还是云端 API 的定价,都极具竞争力。

场景覆盖广,实用性强:从日常办公到科研学习,从简单识别到复杂结构化提取,GLM-OCR 都能提供出色的支持,具有很强的通用性。

工程友好,易于集成:提供了完整的 SDK 和推理工具链,支持多种主流部署方式,无论是开发者还是普通用户,都能快速上手。

国产模型,本土化优势:对于中文用户来说,GLM-OCR 在处理中文文档、票据等本土化场景时,具有天然的优势。

🎯 最后

GLM-OCR 的出现,为 OCR 领域带来了一股新的活力。

“小身材”撬动了“高精度”,用“开源”降低了技术门槛,让更多人能够享受到 AI 带来的便利。

谢谢你看我的文章,既然看到这里了,如果觉得不错,随手点个赞、转发、在看三连吧,感谢感谢。那我们,下次再见。

您的一键三连,是我更新的最大动力,谢谢

山水有相逢,来日皆可期,谢谢阅读,我们再会

我手中的金箍棒,上能通天,下能探海

转载链接:https://juejin.cn/post/7603267434502635535


Tags:


本篇评论 —— 揽流光,涤眉霜,清露烈酒一口话苍茫。


    声明:参照站内规则,不文明言论将会删除,谢谢合作。


      最新评论




ABOUT ME

Blogger:袅袅牧童 | Arkin

Ido:PHP攻城狮

WeChat:nnmutong

Email:nnmutong@icloud.com

标签云