Web前端开发网

fly63.com

首页 资源 工具 文章 教程 栏目
  • 在线搜索
  • 文章标签
  • 广告合作
  • 赞助一下
  • 关于我们
资源推荐
奇绘馆AI视频
新一代AI视频创作平台
免费资源下载中心
一站式解决工作学习需求的宝藏网站
阿里云优惠券
卓越的云计算技术和服务提供商
趣网商城
私密生活好物,隐私配送,无痕购物
星月写作
人工智能写作助手
美图设计室
AI智能一键生成海报,免费平面设计
Trae
字节跳动推出的 AI原生编程工具
Seedance 2.0
字节跳动新一代AI视频生成模型全面解析
码上飞(CodeFlying)
用一句话自动生成小程序、APP、H5网页应用
SpeedAI
一键去重、降AIGC率、数据可视化、论文写作

资源分类

AI智能 酷站推荐 招聘/兼职 框架/库 模块/管理 移动端UI框架 Web-UI框架 Js插件 Jquery插件 CSS相关 IDE环境 在线工具 图形动效 游戏框架 node相关 调试/测试 在线学习 社区/论坛 博客/团队 前端素材 图标/图库 建站资源 设计/灵感 IT资讯
网站收录 / 问题反馈

olmocr

分享
复制链接
新浪微博
QQ 好友

扫一扫分享

GitHub:https://github.com/allenai/olmocr
描述信息:将 PDF /图像转换为干净易读的纯文本
GitHub
用于将PDF和其他基于图像的文档格式转换为干净、可读、纯文本格式。它的核心目标,是让机器拥有类似人类的理解能力,能够解读各类不规范、不完美的 PDF 文档,并从中高质量地提取文本信息 。

olmocr 是一个由艾伦人工智能研究所(AI2)开发的工具包,主要用于将 PDF 和其他基于图像的文档格式转换为干净、易读的纯文本格式。它基于 70 亿参数的视觉语言模型(VLM),需要 GPU 支持,能高效处理各类文档转换工作,转换百万页文档成本不到 200 美元。


功能特色

  • 格式转换:能将 PDF、PNG 和 JPEG 格式的文档转换为清晰的 Markdown 格式。
  • 多元素支持:支持处理公式、表格、手写内容和复杂格式。
  • 自动处理:可自动移除页眉和页脚。
  • 智能排序:即便文档包含图表、多列布局和插图,也能将文本按自然阅读顺序转换。
  • 性能优异:在其推出的 olmOCR-Bench 基准测试套件(涵盖 1400 份文档的 7000 多个测试案例)中,olmOCR v0.1.75(Anchored)版本整体得分 75.5 ± 1.0,优于 Marker、MinerU、Mistral OCR API 等同类工具。
  • 版本更新:不断迭代优化,如 2025 年 6 月 17 日的 v0.1.75 版本将推理管道从 sglang 切换到 vllm,并将 docker 镜像更新为 CUDA 12.8;5 月 23 日的 v0.1.70 版本提供了官方 docker 支持和镜像等。


安装要求

  • 硬件:需配备近期的 NVIDIA GPU(如 RTX 4090、L40S、A100、H100),且 GPU 内存至少 20GB,同时需要 30GB 的可用磁盘空间。
  • 软件:需要安装 poppler-utils 和额外的字体来渲染 PDF 图像。对于 Ubuntu/Debian 系统,可通过相关命令安装依赖。建议创建干净的 conda 环境进行安装,可根据需求选择安装 CPU 版本(用于运行基准测试)或 GPU 版本(用于实际文件转换),还可安装 flash infer 以加快 GPU 上的推理速度。


使用方法

  • 本地使用:可转换单个 PDF、图像文件或多个 PDF,添加 --markdown 标志后,结果将存储在指定工作区的 markdown 文件夹中。
  • 多节点 / 集群使用:支持从 AWS S3 读取 PDF,并使用 AWS S3 输出桶协调工作,可在多个节点上并行转换数百万个 PDF;在 Ai2 环境下,添加 --beaker 标志可利用 beaker 高效线性化数百万个 PDF。
  • Docker 使用:可拉取 Docker 镜像,通过交互式运行容器,并进行卷挂载以访问本地文件,容器内已安装所有依赖,可直接运行 olmOCR 命令。


应用场景

  • 学术研究:科研人员可将大量学术论文(如 arXiv 上的文档)转换为 Markdown 格式,方便进行文本分析、内容提取和整理,便于后续研究引用和参考。
  • 文档管理:企业或个人可将各类 PDF 文档(包括包含表格、公式的复杂文档)转换为易读的文本格式,便于存储、检索和编辑,提高文档管理效率。
  • 数据处理:在需要处理大量基于图像的文档数据时,可利用其高效转换能力,将文档转换为结构化文本,为数据分析、自然语言处理等任务提供高质量的数据输入。
  • 基准测试:开发 OCR 系统的人员可利用其提供的 olmOCR-Bench 基准测试套件,评估自己系统的性能,进行优化和改进。


代码概览

代码中包含一些可复用的部分,对其他项目可能有帮助,例如:

  • 利用 ChatGPT 4o 实现良好自然文本解析的提示策略(buildsilver.py)。
  • 用于比较不同管道版本的并排评估工具包(runeval.py)。
  • 基于语言的基本过滤和 SEO 垃圾信息移除功能(filter.py)。
  • Qwen2-VL 和 Molmo-O 的微调代码(train.py)。
  • 使用 Sglang 通过微调模型处理数百万个 PDF 的代码(pipeline.py)。
  • 查看从 PDF 创建的 Dolma 文档的工具(dolmaviewer.py)。


团队与许可

olmOCR 由 AllenNLP 团队开发和维护,背后有艾伦人工智能研究所(AI2)支持。AI2 是一家非营利机构,致力于通过高影响力的人工智能研究和工程为人类做出贡献。该项目采用 Apache 2.0 许可,完整许可内容可在 GitHub 上查看。


仅供个人学习参考/导航指引使用,具体请以第三方网站说明为准,本站不提供任何专业建议。如果地址失效或描述有误,请联系站长反馈~感谢您的理解与支持!

链接: https://fly63.com/nav/4324

更多»
热门资源
fly63工具箱
简单、易用、便捷的在线工具
官网
GitHub
remove.bg
消除图片背景:100% 自动 – 只需 5 秒
官网
阿里云DataV
地图数据
官网
retoucher
在线AI智能抠图去背景工具
官网
飞书多维表格
飞书旗下的一款在线协作与业务管理工具
官网
Apifox
API 文档、API 调试、API Mock、API 自动化测试一体化协作平台
官网
易文档
需求文档、API文档、部署文档到使用手册
官网
mdx-deck
基于MDX的演示文稿
官网
GitHub
YouCompress
在线免费文件压缩工具
官网
iHateRegex
快速搜索并匹配到合适的正则表达式
官网
GitHub
Trilium Notes
层级结构的笔记程序,专注构建个人的大型知识库
点击进入
GitHub
CodeZen
在线源代码转图片工具
官网
类似于olmocr的资源
js-xlsx
实现纯JS读写各种电子表格格式
官网
GitHub
写个字吧
用来生成汉字字帖简单好用的在线工具
官网
小红笔
在线中文语法和拼写校队工具
官网
微力同步
跨平台Sync同步工具
官网
码工具
在线便捷工具大全
官网
Image Cyborg
一个小众但是非常实用的图片下载网站
官网
docker-android
在 Docker 中运行 轻量级 Android 模拟器
点击进入
GitHub
美间
基于互联网共享精神的软装设计工具
官网
目录

手机扫一扫预览

》
分享组件加载中...
首页 技术导航 在线工具 技术文章 教程资源 前端标签 AI工具集 前端库/框架 实用工具箱 广告合作 关于我们

Copyright © 2018 Web前端开发网 All Rights Reserved. 提供免费在线工具、编程学习资源(教程/框架/库),内容以学习参考为主,助您解决各类实际问题,快速提升专业能力。