Web前端开发网

fly63.com

首页 资源 工具 文章 教程 栏目
  • 关于我们
  • 网站投稿
  • 赞助一下
搜索

在线工具_工作生活好帮手

打造各种简单、易用、便捷的在线工具,网友无需注册和下载安装即可使用

点击查看

资源分类

AI智能 酷站推荐 招聘/兼职 框架/库 模块/管理 移动端UI框架 Web-UI框架 Js插件 Jquery插件 CSS相关 IDE环境 在线工具 图形动效 游戏框架 node相关 调试/测试 在线学习 社区/论坛 博客/团队 前端素材 图标/图库 建站资源 设计/灵感 IT资讯
提交资源 / 链接反馈

MonkeyOCR

分享
复制链接
新浪微博
QQ 好友

扫一扫分享

GitHub:https://github.com/Yuliang-Liu/MonkeyOCR
网站描述:专注于文档解析的OCR项目
GitHub
MonkeyOCR 是一个专注于文档解析的项目,采用了 Structure-Recognition-Relation (SRR) 三元组范式,在简化模块化方法的多工具 pipeline 的同时,避免了使用大型多模态模型处理全页文档的低效问题。


核心特点

  1. 性能优势:
    • MonkeyOCR-pro-1.2B 在中文文档上的表现超过 MonkeyOCR-3B 7.4%
    • MonkeyOCR-pro-1.2B 相比 MonkeyOCR-pro-3B 速度提升约 36%,而性能仅下降约 1.6%
    • 在 olmOCR-Bench 上,MonkeyOCR-pro-1.2B 优于 Nanonets-OCR-3B 7.3%
    • 在 OmniDocBench 上,MonkeyOCR-pro-3B 在中英文文档上均取得最佳整体性能,超过了包括 Gemini 2.0-Flash、GPT-4o 等在内的闭源和超大型开源 VLMs
  2. 推理速度:
    不同 GPU 上的处理速度(页 / 秒)有详细测试数据,例如在 4090 GPU 上,MonkeyOCR-pro-3B 处理 1000 页 PDF 的速度可达 1.006 页 / 秒,MonkeyOCR-pro-1.2B 则为 0.683 页 / 秒(3090 GPU 上)。


部署方式

支持多种部署方式:
  • 本地部署
  • Docker 部署
  • WSL2 + Docker 部署(针对 Windows 用户)


模型下载

可通过 HuggingFace 或 ModelScope 下载模型,项目提供了专门的下载脚本 tools/download_model.py 方便获取模型权重。

仅供个人学习参考/导航指引使用,具体请以第三方网站说明为准,本站不提供任何专业建议。如果地址失效或描述有误,请联系站长反馈~感谢您的理解与支持!

链接: https://fly63.com/nav/4242

more>>
相关栏目
remove.bg
消除图片背景:100% 自动 – 只需 5 秒
官网
阿里云DataV
地图数据
官网
飞书多维表格
飞书旗下的一款在线协作与业务管理工具
官网
Apifox
API 文档、API 调试、API Mock、API 自动化测试一体化协作平台
官网
易文档
需求文档、API文档、部署文档到使用手册
官网
mdx-deck
基于MDX的演示文稿
官网 GitHub
YouCompress
在线免费文件压缩工具
官网
iHateRegex
快速搜索并匹配到合适的正则表达式
官网 GitHub
Trilium Notes
层级结构的笔记程序,专注构建个人的大型知识库
点击进入 GitHub
CodeZen
在线源代码转图片工具
官网
pngtosvg
在线PNG转SVG转换工具
官网
PDFgear
高效的 PDF 在线工具
官网
HackMD
一款超级好用的在线Markdown编辑器
官网 GitHub
Hexnaw
在线网站配色评分工具
官网
糯词笔记
最佳读书笔记管理工具
官网
压缩图
在线图片压缩工具集合
官网
首页 技术导航 在线工具 技术文章 教程资源 AI工具集 前端库/框架 实用工具箱

Copyright © 2018 Web前端开发网提供免费在线工具、编程学习资源(教程/框架/库),内容以学习参考为主,助您解决各类实际问题,快速提升专业能力。

手机预览