Web前端开发网

fly63.com

首页 资源 工具 文章 教程 栏目
  • 在线搜索
  • 文章标签
  • 广告合作
  • 赞助一下
  • 关于我们
资源推荐
Trae
字节跳动推出的 AI原生编程工具
任推邦
APP推广项目分发和流量变现平台
扣子Coze
职场AI,就用扣子
阿里云优惠券
卓越的云计算技术和服务提供商
堆友AI
零门槛,多风格AI绘画免费生成,电商海报设计神器
AiPPT
全智能AI一键生成 PPT
美图设计室
AI智能一键生成海报,免费平面设计
豆包AI
字节跳动旗下 AI 智能助手
硅云优惠券
领先的基础云计算服务提供商,PHP云虚拟主机第一品牌
宝塔服务器面板
简单好用的服务器运维面板

资源分类

AI智能 酷站推荐 招聘/兼职 框架/库 模块/管理 移动端UI框架 Web-UI框架 Js插件 Jquery插件 CSS相关 IDE环境 在线工具 图形动效 游戏框架 node相关 调试/测试 在线学习 社区/论坛 博客/团队 前端素材 图标/图库 建站资源 设计/灵感 IT资讯
网站收录 / 问题反馈

olmocr

分享
复制链接
新浪微博
QQ 好友

扫一扫分享

GitHub:https://github.com/allenai/olmocr
网站描述:将 PDF /图像转换为干净易读的纯文本
GitHub
用于将PDF和其他基于图像的文档格式转换为干净、可读、纯文本格式。它的核心目标,是让机器拥有类似人类的理解能力,能够解读各类不规范、不完美的 PDF 文档,并从中高质量地提取文本信息 。

olmocr 是一个由艾伦人工智能研究所(AI2)开发的工具包,主要用于将 PDF 和其他基于图像的文档格式转换为干净、易读的纯文本格式。它基于 70 亿参数的视觉语言模型(VLM),需要 GPU 支持,能高效处理各类文档转换工作,转换百万页文档成本不到 200 美元。


功能特色

  • 格式转换:能将 PDF、PNG 和 JPEG 格式的文档转换为清晰的 Markdown 格式。
  • 多元素支持:支持处理公式、表格、手写内容和复杂格式。
  • 自动处理:可自动移除页眉和页脚。
  • 智能排序:即便文档包含图表、多列布局和插图,也能将文本按自然阅读顺序转换。
  • 性能优异:在其推出的 olmOCR-Bench 基准测试套件(涵盖 1400 份文档的 7000 多个测试案例)中,olmOCR v0.1.75(Anchored)版本整体得分 75.5 ± 1.0,优于 Marker、MinerU、Mistral OCR api 等同类工具。
  • 版本更新:不断迭代优化,如 2025 年 6 月 17 日的 v0.1.75 版本将推理管道从 sglang 切换到 vllm,并将 docker 镜像更新为 CUDA 12.8;5 月 23 日的 v0.1.70 版本提供了官方 docker 支持和镜像等。


安装要求

  • 硬件:需配备近期的 NVIDIA GPU(如 RTX 4090、L40S、A100、H100),且 GPU 内存至少 20GB,同时需要 30GB 的可用磁盘空间。
  • 软件:需要安装 poppler-utils 和额外的字体来渲染 PDF 图像。对于 Ubuntu/Debian 系统,可通过相关命令安装依赖。建议创建干净的 conda 环境进行安装,可根据需求选择安装 CPU 版本(用于运行基准测试)或 GPU 版本(用于实际文件转换),还可安装 flash infer 以加快 GPU 上的推理速度。


使用方法

  • 本地使用:可转换单个 PDF、图像文件或多个 PDF,添加 --markdown 标志后,结果将存储在指定工作区的 markdown 文件夹中。
  • 多节点 / 集群使用:支持从 AWS S3 读取 PDF,并使用 AWS S3 输出桶协调工作,可在多个节点上并行转换数百万个 PDF;在 Ai2 环境下,添加 --beaker 标志可利用 beaker 高效线性化数百万个 PDF。
  • Docker 使用:可拉取 Docker 镜像,通过交互式运行容器,并进行卷挂载以访问本地文件,容器内已安装所有依赖,可直接运行 olmOCR 命令。


应用场景

  • 学术研究:科研人员可将大量学术论文(如 arXiv 上的文档)转换为 Markdown 格式,方便进行文本分析、内容提取和整理,便于后续研究引用和参考。
  • 文档管理:企业或个人可将各类 PDF 文档(包括包含表格、公式的复杂文档)转换为易读的文本格式,便于存储、检索和编辑,提高文档管理效率。
  • 数据处理:在需要处理大量基于图像的文档数据时,可利用其高效转换能力,将文档转换为结构化文本,为数据分析、自然语言处理等任务提供高质量的数据输入。
  • 基准测试:开发 OCR 系统的人员可利用其提供的 olmOCR-Bench 基准测试套件,评估自己系统的性能,进行优化和改进。


代码概览

代码中包含一些可复用的部分,对其他项目可能有帮助,例如:

  • 利用 ChatGPT 4o 实现良好自然文本解析的提示策略(buildsilver.py)。
  • 用于比较不同管道版本的并排评估工具包(runeval.py)。
  • 基于语言的基本过滤和 seo 垃圾信息移除功能(filter.py)。
  • Qwen2-VL 和 Molmo-O 的微调代码(train.py)。
  • 使用 Sglang 通过微调模型处理数百万个 PDF 的代码(pipeline.py)。
  • 查看从 PDF 创建的 Dolma 文档的工具(dolmaviewer.py)。


团队与许可

olmOCR 由 AllenNLP 团队开发和维护,背后有艾伦人工智能研究所(AI2)支持。AI2 是一家非营利机构,致力于通过高影响力的人工智能研究和工程为人类做出贡献。该项目采用 Apache 2.0 许可,完整许可内容可在 GitHub 上查看。


仅供个人学习参考/导航指引使用,具体请以第三方网站说明为准,本站不提供任何专业建议。如果地址失效或描述有误,请联系站长反馈~感谢您的理解与支持!

链接: https://fly63.com/nav/4324

更多»
热门资源
fly63工具箱
简单、易用、便捷的在线工具
官网
GitHub
remove.bg
消除图片背景:100% 自动 – 只需 5 秒
官网
阿里云DataV
地图数据
官网
retoucher
在线AI智能抠图去背景工具
官网
飞书多维表格
飞书旗下的一款在线协作与业务管理工具
官网
Apifox
API 文档、API 调试、API Mock、API 自动化测试一体化协作平台
官网
易文档
需求文档、API文档、部署文档到使用手册
官网
mdx-deck
基于MDX的演示文稿
官网
GitHub
YouCompress
在线免费文件压缩工具
官网
iHateRegex
快速搜索并匹配到合适的正则表达式
官网
GitHub
Trilium Notes
层级结构的笔记程序,专注构建个人的大型知识库
点击进入
GitHub
CodeZen
在线源代码转图片工具
官网
类似于olmocr的资源
PoleBrief
免费简历制作平台
官网
LibScore
在线JS脚本库收集统计平台
官网
ZeroNews
企业级内网穿透工具
官网
PhotoScissors
在线照片去背景智能工具
官网
Chrome DevTools MCP
将Chrome浏览器开发者工具通过MCP暴露给AI
点击进入
GitHub
Assetizr
在线图片最佳优化工具
官网
剪映(CapCut)
一款全能易用的视频编辑工具
官网
Umi-OCR
开源、免费的离线OCR软件
点击进入
GitHub
目录

手机扫一扫预览

》
分享组件加载中...
首页 技术导航 在线工具 技术文章 教程资源 前端标签 AI工具集 前端库/框架 实用工具箱 广告合作 关于我们

Copyright © 2018 Web前端开发网提供免费在线工具、编程学习资源(教程/框架/库),内容以学习参考为主,助您解决各类实际问题,快速提升专业能力。