MonkeyOCR_专注于文档解析的OCR项目

Web前端开发网

fly63.com

首页资源工具文章教程栏目

MonkeyOCR

分享

GitHub:https://github.com/Yuliang-Liu/MonkeyOCR

描述信息:专注于文档解析的OCR项目

GitHub

MonkeyOCR 是一个专注于文档解析的项目，采用了 Structure-Recognition-Relation (SRR) 三元组范式，在简化模块化方法的多工具 pipeline 的同时，避免了使用大型多模态模型处理全页文档的低效问题。

核心特点

性能优势：
- MonkeyOCR-pro-1.2B 在中文文档上的表现超过 MonkeyOCR-3B 7.4%
- MonkeyOCR-pro-1.2B 相比 MonkeyOCR-pro-3B 速度提升约 36%，而性能仅下降约 1.6%
- 在 olmOCR-Bench 上，MonkeyOCR-pro-1.2B 优于 Nanonets-OCR-3B 7.3%
- 在 OmniDocBench 上，MonkeyOCR-pro-3B 在中英文文档上均取得最佳整体性能，超过了包括 Gemini 2.0-Flash、GPT-4o 等在内的闭源和超大型开源 VLMs
推理速度：
不同 GPU 上的处理速度（页 / 秒）有详细测试数据，例如在 4090 GPU 上，MonkeyOCR-pro-3B 处理 1000 页 PDF 的速度可达 1.006 页 / 秒，MonkeyOCR-pro-1.2B 则为 0.683 页 / 秒（3090 GPU 上）。

部署方式

支持多种部署方式：

本地部署
Docker 部署
WSL2 + Docker 部署（针对 Windows 用户）

模型下载

可通过 HuggingFace 或 ModelScope 下载模型，项目提供了专门的下载脚本 tools/download_model.py 方便获取模型权重。

仅供个人学习参考/导航指引使用，具体请以第三方网站说明为准，本站不提供任何专业建议。如果地址失效或描述有误，请联系站长反馈～感谢您的理解与支持！

链接: https://fly63.com/nav/4242

热门资源

5118站长工具

关键词、长尾词挖掘，AI驱动的SEO内容创作辅助平台

官网

简单、易用、便捷的在线工具

官网

GitHub

飞书多维表格

飞书旗下的一款在线协作与业务管理工具

官网

消除图片背景：100% 自动 – 只需 5 秒

官网

在线AI智能抠图去背景工具

官网

图片压缩工具

免费减小图片大小,支持JPG/PNG/Webp多种格式

官网

图片格式转换

在线图像转换器,支持JPG/PNG/WebP多种格式

官网

老照片修复神器

AI还原褪色和损坏的照片，在线一键修复老照片

官网

一站式AI工具平台，为工作和学习提供智能解决方案

官网

证件照生成器

在线制作标准证件照、换底色、AI智能生成

官网

官网

API 文档、API 调试、API Mock、API 自动化测试一体化协作平台

官网

类似于MonkeyOCR的资源

tool.lu在线工具

非常实用的程序员工具箱

官网

致力于改善设计师的工作效率

官网

一个非常适合IT团队的在线文档分享工具

官网

开源的邮件服务器，为智能营销提供电子邮件解决方案

官网

GitHub

英文上传图片查找字体

官网

一个独特的插图用户头像的在线工具

官网

文件对比工具，比较不同文件夹中文件或文档中的交叉对比

官网

拍立得效果生成工具

官网