MonkeyOCR 是一个专注于文档解析的项目,采用了 Structure-Recognition-Relation (SRR) 三元组范式,在简化模块化方法的多
工具 pipeline 的同时,避免了使用大型多模态模型处理全页文档的低效问题。
核心特点
性能优势:
- MonkeyOCR-pro-1.2B 在中文文档上的表现超过 MonkeyOCR-3B 7.4%
- MonkeyOCR-pro-1.2B 相比 MonkeyOCR-pro-3B 速度提升约 36%,而性能仅下降约 1.6%
- 在 olmOCR-Bench 上,MonkeyOCR-pro-1.2B 优于 Nanonets-OCR-3B 7.3%
- 在 OmniDocBench 上,MonkeyOCR-pro-3B 在中英文文档上均取得最佳整体性能,超过了包括 Gemini 2.0-Flash、GPT-4o 等在内的闭源和超大型开源 VLMs
推理速度:
不同 GPU 上的处理速度(页 / 秒)有详细测试
数据,例如在 4090 GPU 上,MonkeyOCR-pro-3B 处理 1000 页 PDF 的速度可达 1.006 页 / 秒,MonkeyOCR-pro-1.2B 则为 0.683 页 / 秒(3090 GPU 上)。
部署方式
支持多种部署方式:
- 本地部署
- Docker 部署
- WSL2 + Docker 部署(针对 Windows 用户)
模型下载
可通过 HuggingFace 或 ModelScope 下载模型,项目提供了专门的下载脚本 tools/download_model.py 方便获取模型权重。
仅供个人学习参考/导航指引使用,具体请以第三方网站说明为准,本站不提供任何专业建议。如果地址失效或描述有误,请联系站长反馈~感谢您的理解与支持!
链接: https://fly63.com/nav/4242