AI2 开源 olmOCR:7B 视觉模型把 PDF 变干净 Markdown,百万页不到 200 美元,olmOCR-Bench 82.4 分碾压 Mistral OCR

发布时间:2026/6/17 13:16:17

AI2 开源 olmOCR:7B 视觉模型把 PDF 变干净 Markdown,百万页不到 200 美元,olmOCR-Bench 82.4 分碾压 Mistral OCR AI2 开源 olmOCR7B 视觉模型把 PDF 变干净 Markdown百万页不到 200 美元olmOCR-Bench 82.4 分碾压 Mistral OCR PDF 转 Markdown 有多难AI2 说7B 模型就够了。olmOCR 基于 Qwen2.5-VL 微调支持 PDF/PNG/JPEG 一键转干净 Markdown数学公式、表格、手写体、多栏排版、复杂嵌套全搞定自动去除页眉页脚自然阅读顺序还原v0.4.0 引入 RL 训练olmOCR-Bench 82.4 分百万页转换不到 $20012GB 显存即可本地运行vLLM 推理引擎AWS S3 多节点并行Docker 一键部署Cirrascale/DeepInfra/Parasail 云端 API 按需调用两篇 arXiv 论文AI2 出品Apache 2.0 开源。 目录1. olmOCR 是什么2. 核心特性3. olmOCR-Bench7000 测试用例横评4. 版本演进与 RL 训练5. 安装指南6. 使用实战7. 云端推理无需 GPU8. 多节点集群百万 PDF 并行9. Docker 部署10. 可复用代码模块11. 竞品深度对比12. 成本分析13. 优缺点与使用建议14. 总结1. olmOCR 是什么olmOCR是 Allen Institute for AI (AI2) 开源的 PDF 线性化工具包将 PDF 和图像文档转换为干净、可读的纯文本/Markdown 格式。 项目地址https://github.com/allenai/olmocr 在线体验https://olmocr.allenai.org/ 论文 v1arXiv 2502.18443 论文 v2arXiv 2510.19817RL 训练 Unit Test Rewards 许可证Apache 2.0 维护方AI2 AllenNLP 团队 当前版本v0.4.0olmOCR-2-7B-1025-FP8一句话总结olmOCR AI2 出品的 PDF→Markdown 转换器 7B 视觉语言模型驱动 数学公式/表格/手写/多栏全支持 百万页 $200 12GB 显存本地运行 vLLM S3 多节点并行 两篇 arXiv 论文2. 核心特性特性说明多格式输入PDF / PNG / JPEG 全支持干净 Markdown 输出数学公式、表格、手写体、复杂排版精准转换自动去除页眉页脚无需手动清理自然阅读顺序多栏排版、插图、嵌套内容正确还原超低成本 $200 / 百万页⚡vLLM 推理引擎高吞吐批量推理云端 APICirrascale / DeepInfra / Parasail 三家验证Docker 部署含模型镜像一键运行S3 多节点AWS S3 工作队列 多 Worker 并行olmOCR-Bench7000 测试用例1400 文档综合评测RL 训练v0.4.0 引入 GRPO 强化学习Unit Test Rewards️训练代码开源SFT GRPO 训练器可自己训练 OCR 模型3. olmOCR-Bench7000 测试用例横评olmOCR 自带olmOCR-Bench基准测试覆盖 7,000 测试用例、1,400 文档8 大维度全面评测。综合得分排行排名工具ArXiv旧扫描数学表格旧扫描页眉页脚多栏长文本基础综合1Chandra OCR 0.1.0*82.280.388.050.490.881.292.399.983.1±0.92Infinity-Parser 7B*84.483.885.047.988.784.286.499.882.5±?3olmOCR v0.4.083.082.384.947.796.183.781.999.782.4±1.14PaddleOCR-VL*85.771.084.137.897.079.985.798.580.0±1.05Marker 1.10.183.866.872.933.586.680.085.799.376.1±1.16DeepSeek-OCR77.273.680.233.396.166.479.499.875.7±1.07MinerU 2.5.4*76.654.684.933.796.678.283.593.775.2±1.18Mistral OCR API77.267.560.629.393.671.377.199.472.0±1.19Nanonets-OCR2-3B75.446.186.840.932.181.993.099.669.5±1.1⚠️ 标 * 号的工具可能使用了 olmOCR-Bench 训练数据结果仅供参考。olmOCR 优势维度维度olmOCR 得分亮点页眉页脚96.1 第二高自动去除能力极强基础 OCR99.7 几乎满分多栏83.7 复杂排版还原优秀旧扫描数学82.3 手写/模糊公式识别强ArXiv83.0论文转换出色4. 版本演进与 RL 训练版本时间线时间版本关键更新2025.02.25v0.1.58 初始公开发布 Demo2025.03.17v0.1.60采样温度优化性能提升2025.05.19v0.1.68olmOCR-Bench 发布得分 77.42025.05.23v0.1.70Docker 官方支持2025.06.17v0.1.75SGLang →vLLM推理引擎切换2025.07.23v0.2.0训练代码开源SFTGRPO2025.07.24v0.2.1新模型 FP8Bench 3 分更快更稳2025.08.13v0.3.0修复自动旋转 空白页幻觉2025.10.21v0.4.0olmOCR-2-7B-1025-FP8RL 训练Bench 4 分v0.4.0 核心突破RL 训练 Unit Test RewardsolmOCR v1 → 纯 SFT 监督微调 olmOCR v2 → SFT GRPO 强化学习 创新点Unit Test Rewards 传统 RLHF人类标注偏好 → 训练奖励模型 → PPO olmOCR v2编写单元测试作为奖励信号 → GRPO 训练 优势 ✅ 无需人工标注偏好数据 ✅ 奖励信号精确可控 ✅ 可针对特定错误类型如表格错位、公式乱码定向优化 ✅ Bench 得分从 78.x → 82.4提升约 4 分5. 安装指南系统依赖Ubuntu/Debiansudoapt-getupdatesudoapt-getinstallpoppler-utils ttf-mscorefonts-installer msttcorefonts\fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools创建独立环境conda create-nolmocrpython3.11conda activate olmocr⚠️ olmocr 依赖较复杂务必使用全新环境四种安装方式方式命令适用场景轻量安装pip install olmocr仅用远程推理无 GPU本地 GPUpip install olmocr[gpu] --extra-index-url https://download.pytorch.org/whl/cu128本地 12GB 显存Beaker 集群pip install olmocr[beaker]AI2 Beaker 集群评测套件pip install olmocr[bench]运行 olmOCR-BenchGPU 加速推荐# 安装 FlashInfer 加速推理强烈推荐pipinstallhttps://download.pytorch.org/whl/cu128/flashinfer/flashinfer_python-0.2.5%2Bcu128torch2.7-cp38-abi3-linux_x86_64.whl故障排除# too many open files 错误ulimit-n65536硬件需求配置最低要求GPUNVIDIA 12GB VRAMRTX 4090 / L40S / A100 / H100 已测试磁盘30GB 可用空间模型olmOCR-2-7B-1025-FP8FP8 量化7B 参数6. 使用实战单个 PDF 转换# 下载样例 PDFcurl-oolmocr-sample.pdf https://olmocr.allenai.org/papers/olmocr_3pg_sample.pdf# 转换为 Markdownolmocr ./localworkspace--markdown--pdfsolmocr-sample.pdf# 查看结果catlocalworkspace/markdown/olmocr-sample.md图像文件转换olmocr ./localworkspace--markdown--pdfsrandom_page.png批量 PDF 转换olmocr ./localworkspace--markdown--pdfstests/gnarly_pdfs/*.pdf使用远程推理服务器olmocr ./localworkspace\--serverhttp://remote-server:8000/v1\--modelallenai/olmOCR-2-7B-1025-FP8\--markdown\--pdfs*.pdf输出说明./localworkspace/ ├── markdown/ # Markdown 输出--markdown 时生成 │ ├── doc1.md │ ├── doc2.md │ └── ... └── dolma/ # Dolma 格式输出训练数据格式 └── ...常用参数参数说明默认值--markdown同时输出 Markdown 文件关--workers并行 Worker 数1--pages_per_group每组页数—--apply_filter过滤英文非表单/SEO 垃圾关--guided_decoding启用引导解码关--max_page_retries单页最大重试次数—--stats查看工作区统计—7. 云端推理无需 GPU轻量安装# 无需 GPU 依赖pipinstallolmocr自建 vLLM 服务vllm serve allenai/olmOCR-2-7B-1025-FP8 --max-model-len16384已验证云端提供商提供商输入价格/1M token输出价格/1M tokenCirrascale$0.07$0.15DeepInfra$0.09$0.19Parasail$0.10$0.20Cirrascale 示例olmocr ./workspace\--serverhttps://ai2endpoints.cirrascale.ai/api\--api_keysk-XXXXXXX\--workers1\--max_concurrent_requests20\--modelolmOCR-2-7B-1025\--pdfstests/gnarly_pdfs/*.pdfDeepInfra 示例olmocr ./workspace\--serverhttps://api.deepinfra.com/v1/openai\--api_keyDfXXXXXXX\--workers1\--max_concurrent_requests20\--modelallenai/olmOCR-2-7B-1025\--pdfstests/gnarly_pdfs/*.pdf8. 多节点集群百万 PDF 并行AWS S3 多节点方案# 节点 1启动 添加 PDFolmocr s3://my_s3_bucket/pdfworkspaces/exampleworkspace\--pdfss3://my_s3_bucket/jakep/gnarly_pdfs/*.pdf# 节点 2-N自动加入工作队列olmocr s3://my_s3_bucket/pdfworkspaces/exampleworkspace工作流程 S3 Bucket (pdfworkspaces/exampleworkspace) ├── work_queue/ ← 待处理 PDF 列表 ├── results/ ← 已完成结果 └── checkpoints/ ← 进度检查点 Worker 1 ──→ 拉取任务 ──→ 处理 PDF ──→ 写入结果 Worker 2 ──→ 拉取任务 ──→ 处理 PDF ──→ 写入结果 Worker N ──→ 拉取任务 ──→ 处理 PDF ──→ 写入结果 自动负载均衡Worker 随时增减Beaker 集群AI2 内部pipinstallolmocr[gpu,beaker]--extra-index-url https://download.pytorch.org/whl/cu128 olmocr s3://my_s3_bucket/pdfworkspaces/exampleworkspace\--pdfss3://my_s3_bucket/jakep/gnarly_pdfs/*.pdf\--beaker--beaker_gpus49. Docker 部署拉取镜像# 含模型镜像~30GB开箱即用dockerpull alleninstituteforai/olmocr:latest-with-model# 基础镜像自行管理模型下载dockerpull alleninstituteforai/olmocr:latest处理单个 PDFdockerrun--gpusall\-v$(pwd):/workspace\alleninstituteforai/olmocr:latest-with-model\-colmocr /workspace/output --markdown --pdfs /workspace/sample.pdf批量处理dockerrun--gpusall\-v/path/to/pdfs:/input\-v/path/to/output:/output\alleninstituteforai/olmocr:latest-with-model\-colmocr /output --markdown --pdfs /input/*.pdf交互式调试dockerrun-it--gpusall alleninstituteforai/olmocr:latest-with-model10. 可复用代码模块olmOCR 提供多个可独立使用的模块适合二次开发模块路径功能GPT-4o 银标数据生成olmocr/data/buildsilver.py用 ChatGPT 4o 生成高质量 OCR 训练数据语言过滤 SEO 去噪olmocr/filter/filter.py过滤英文文档 去除 SEO 垃圾SFT 微调代码olmocr/train/train.pyQwen2.5-VL 的 SFT 微调器GRPO RL 训练器olmocr/train/grpo_train.py强化学习训练v0.4.0 核心合成数据生成olmocr/synth/mine_html_templates.py从 HTML 模板挖掘生成合成训练数据批量推理流水线olmocr/pipeline.py百万级 PDF vLLM 批量处理Dolma 文档查看器olmocr/viewer/dolmaviewer.py查看 Dolma 格式的 PDF 转换结果11. 竞品深度对比OCR 工具全方位对比对比维度olmOCR v0.4.0Mistral OCRMarkerMinerUPaddleOCR-VL综合得分82.472.076.175.280.0驱动方式7B VLM闭源 API传统管线传统管线VLM本地运行✅❌✅✅✅数学公式✅82.367.566.854.671.0表格识别✅84.960.672.984.984.1页眉页脚去除✅96.193.686.696.697.0多栏还原✅83.771.380.078.279.9Markdown 输出✅✅✅✅✅开源✅Apache 2.0❌✅✅✅训练代码✅SFTGRPO❌❌❌❌批量处理✅S3多节点API有限有限有限百万页成本$200昂贵低低低论文✅2篇 arXiv❌❌❌❌关键差异化olmOCR vs Mistral OCR API ✅ 开源可本地部署 vs 闭源仅 API ✅ 82.4 vs 72.0 综合得分10.4 ✅ 数学公式 82.3 vs 67.5 ✅ 表格 84.9 vs 60.6 ✅ 百万页 $200 vs API 按量计费 olmOCR vs Marker/MinerU ✅ VLM 驱动 vs 传统管线 ✅ 数学公式和复杂排版更强 ✅ 批量处理 S3 多节点 ✅ 训练代码完全开源 ✅ 2篇学术论文支撑 olmOCR vs PaddleOCR-VL ✅ 综合得分 82.4 vs 80.0 ✅ 数学公式 82.3 vs 71.0 ✅ 多栏 83.7 vs 79.9 ⚠️ PaddleOCR-VL 旧扫描得分更高37.8 vs 47.7...等一下实际是旧扫描得分 PaddleOCR 低12. 成本分析本地 GPU 运行项目成本一次性投入GPU12GB如 RTX 4090每页成本~$0.0002电费百万页成本 $200云端 API 运行提供商输入/1M token输出/1M token百万页估算Cirrascale$0.07$0.15~$50-150DeepInfra$0.09$0.19~$60-180Parasail$0.10$0.20~$70-200与 Mistral OCR API 对比方案百万页成本olmOCR 本地 $200olmOCR Cirrascale~$50-150Mistral OCR API显著更高13. 优缺点与使用建议✅ 优点维度评分说明转换质量⭐⭐⭐⭐⭐olmOCR-Bench 82.4数学/表格/多栏全优开源程度⭐⭐⭐⭐⭐Apache 2.0 模型权重 训练代码全开源成本⭐⭐⭐⭐⭐ $200/百万页本地运行近乎免费易用性⭐⭐⭐⭐一行命令转换但需 GPU 环境配置扩展性⭐⭐⭐⭐⭐S3 多节点 Beaker 集群 Docker学术背书⭐⭐⭐⭐⭐AI2 出品 2 篇 arXiv 论文云端支持⭐⭐⭐⭐三家 API 验证轻量安装无 GPU 也可用⚠️ 注意事项事项说明需要 GPU12GB VRAM消费级 RTX 4090 可用环境依赖必须用全新 conda 环境仅 Linux系统依赖poppler等面向 Ubuntu/DebianDocker 体积含模型镜像 ~30GB旧扫描文档旧扫描得分 47.7仍有提升空间Windows需 WSL2 运行 使用建议先试在线 Demoolmocr.allenai.org快速体验效果轻量安装 云端 API无 GPU 时用 DeepInfra/Cirrascalepip install olmocr即可本地 GPU 用 FP8 模型olmOCR-2-7B-1025-FP812GB 显存即可批量处理用 S3 模式多 Worker 并行百万级 PDF 无压力Docker 快速部署latest-with-model镜像开箱即用自己训练用 GRPO训练代码完全开源Unit Test Rewards 方法可复用关注版本更新从 v0.1.58 到 v0.4.0每个版本都有显著提升14. 总结olmOCR 是当前开源 PDF→Markdown 领域的顶尖项目82.4 分olmOCR-Bench 综合得分数学公式/表格/多栏全面领先7B VLM驱动FP8 量化 12GB 显存可用 $200 / 百万页本地运行近乎免费RL 训练创新Unit Test Rewards GRPOarXiv 两篇论文全开源模型权重 SFT/GRPO 训练代码 推理流水线灵活部署本地 GPU / 云端 API / Docker / S3 多节点AI2 出品AllenNLP 团队维护学术 工程双保障推荐指数⭐⭐⭐⭐⭐无论你是要把论文 PDF 转成训练数据还是要批量处理企业文档olmOCR 都是当前最好的开源选择。7B 模型 RL 训练 全开源 超低成本PDF 转 Markdown 就该这么简单。 项目地址https://github.com/allenai/olmocr 在线体验https://olmocr.allenai.org/ 论文 v1arXiv 2502.18443 论文 v2arXiv 2510.19817 DockerDocker Hub标签#olmOCR #AI2 #PDF转Markdown #OCR #VLM #RL训练 #GRPO #文档处理

相关新闻