Web前端开发网

fly63.com

首页 资源 工具 文章 教程 栏目
  • 关于我们
  • 广告合作
  • 网站投稿
  • 文章标签
  • 赞助一下
搜索

在线工具_工作生活好帮手

打造各种简单、易用、便捷的在线工具,网友无需注册和下载安装即可使用

点击查看

资源分类

AI智能 酷站推荐 招聘/兼职 框架/库 模块/管理 移动端UI框架 Web-UI框架 Js插件 Jquery插件 CSS相关 IDE环境 在线工具 图形动效 游戏框架 node相关 调试/测试 在线学习 社区/论坛 博客/团队 前端素材 图标/图库 建站资源 设计/灵感 IT资讯
提交资源 / 链接反馈

PaddleOCR

分享
复制链接
新浪微博
QQ 好友

扫一扫分享

网站地址:https://www.paddleocr.a
GitHub:https://github.com/PaddlePaddle/PaddleOCR
网站描述:图片文字识别模型
访问官网 GitHub
PaddleOCR 是业界领先、可直接部署的 OCR 与文档智能引擎,提供从文本识别到文档理解的全流程解决方案

PaddleOCR 将文档和图像转换为结构化、AI友好的数据(如JSON和Markdown),精度达到行业领先水平——为全球从独立开发者,初创企业和大型企业的AI应用提供强力支撑。凭借60,000+星标和MinerU、RAGFlow、pathway、cherry-studio等头部项目的深度集成,PaddleOCR已成为AI时代开发者构建智能文档等应用的首选解决方案。


PaddleOCR核心能力

  • PaddleOCR-VL - 通过 0.9B 超紧凑视觉语言模型增强多语种文档解析
    面向文档解析的 SOTA 且资源高效的模型, 支持 109 种语言,在复杂元素(如文本、表格、公式和图表)识别方面表现出色,同时资源消耗极低。

  • PP-OCRv5 — 全场景文字识别
    单模型支持五种文字类型(简中、繁中、英文、日文及拼音),精度提升13个百分点。解决多语言混合文档的识别难题。

  • PP-StructureV3 — 复杂文档解析
    将复杂PDF和文档图像智能转换为保留原始结构的Markdown文件和JSON文件,在公开评测中领先众多商业方案。完美保持文档版式和层次结构。

  • PP-ChatOCRv4 — 智能信息抽取
    原生集成ERNIE 4.5,从海量文档中精准提取关键信息,精度较上一代提升15个百分点。让文档"听懂"您的问题并给出准确答案。

PaddleOCR 3.0除了提供优秀的模型库外,还提供好学易用的工具,覆盖模型训练、推理和服务化部署,方便开发者快速落地AI应用。


本地安装

请参考安装指南完成PaddlePaddle的安装,然后安装paddleocr。

# 只希望使用基础文字识别功能(返回文字位置坐标和文本内容),包含 PP-OCR 系列
python -m pip install paddleocr
# 希望使用文档解析、文档理解、文档翻译、关键信息抽取等全部功能
# python -m pip install "paddleocr[all]"

从 3.2.0 版本开始,除了上面演示的 all 依赖组以外,PaddleOCR 也支持通过指定其它依赖组,安装部分可选功能。PaddleOCR 提供的所有依赖组如下:

依赖组名称对应的功能
doc-parser文档解析,可用于提取文档中的表格、公式、印章、图片等版面元素,包含 PP-StructureV3、PaddleOCR-VL 等模型方案
ie信息抽取,可用于从文档中提取关键信息,如姓名、日期、地址、金额等,包含 PP-ChatOCRv4 等模型方案
trans文档翻译,可用于将文档从一种语言翻译为另一种语言,包含 PP-DocTranslation 等模型方案
all完整功能


命令行方式推理

# 运行 PP-OCRv5 推理
paddleocr ocr -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png --use_doc_orientation_classify False --use_doc_unwarping False --use_textline_orientation False 

# 运行 PP-StructureV3 推理
paddleocr pp_structurev3 -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_structure_v3_demo.png --use_doc_orientation_classify False --use_doc_unwarping False

# 运行 PP-ChatOCRv4 推理前,需要先获得千帆api Key
paddleocr pp_chatocrv4_doc -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/vehicle_certificate-1.png -k 驾驶室准乘人数 --qianfan_api_key your_api_key --use_doc_orientation_classify False --use_doc_unwarping False 

# 运行 PaddleOCR-VL 推理
paddleocr doc_parser -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png

# 查看 "paddleocr ocr" 详细参数
paddleocr ocr --help

4. API方式推理

4.1 PP-OCRv5 示例

from paddleocr import PaddleOCR
# 初始化 PaddleOCR 实例
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False)

# 对示例图像执行 OCR 推理 
result = ocr.predict(
    input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
    
# 可视化结果并保存 json 结果
for res in result:
    res.print()
    res.save_to_img("output")
    res.save_to_json("output")

仅供个人学习参考/导航指引使用,具体请以第三方网站说明为准,本站不提供任何专业建议。如果地址失效或描述有误,请联系站长反馈~感谢您的理解与支持!

链接: https://fly63.com/nav/4796

more>>
相关栏目
扣子Coze
创建属于你的 AI 应用
官网
DeepSeek
幻方量化公司旗下的开源大模型平台
官网 GitHub
ChatGPT
OpenAI发布新一代语言模型
官网
Gemini
Google 推出的一款对话式 AI 工具
官网
即梦AI
一站式智能创作平台,即刻造梦
官网
Kimi
是一个有着超大“内存”的智能助手
官网
Trae
字节跳动推出的 AI原生编程工具
官网
通义千问
阿里推出的一个不断进化AI大模型
官网
文心一言
百度研发的知识增强大语言模型
官网
Luma AI
一个专注于视频生成技术的平台
官网
腾讯元宝
基于腾讯混元大模型的AI应用
官网
百川智能
汇聚世界知识,创作妙笔生花
官网
Ollama
本地便捷部署和运行大型语言模型LLM框架
官网 GitHub
纳米AI
360集团旗下的智能体系统
官网
Claude AI
由Anthropic公司打造一个 AI 驱动的智能交互平台
官网
Grok
马斯克的xAI开发的Grok模型的中文优化版本
官网

手机预览

首页 技术导航 在线工具 技术文章 教程资源 AI工具集 前端库/框架 实用工具箱

Copyright © 2018 Web前端开发网提供免费在线工具、编程学习资源(教程/框架/库),内容以学习参考为主,助您解决各类实际问题,快速提升专业能力。