PaddleOCR_图片文字识别模型

Web前端开发网

fly63.com

首页资源工具文章教程栏目

PaddleOCR

网站地址:https://www.paddleocr.a

GitHub:https://github.com/PaddlePaddle/PaddleOCR

描述信息:图片文字识别模型

访问官网

GitHub

PaddleOCR 是业界领先、可直接部署的 OCR 与文档智能引擎，提供从文本识别到文档理解的全流程解决方案

PaddleOCR 将文档和图像转换为结构化、AI友好的数据（如JSON和Markdown），精度达到行业领先水平——为全球从独立开发者，初创企业和大型企业的AI应用提供强力支撑。凭借60,000+星标和MinerU、RAGFlow、pathway、cherry-studio等头部项目的深度集成，PaddleOCR已成为AI时代开发者构建智能文档等应用的首选解决方案。

PaddleOCR核心能力

PaddleOCR-VL - 通过 0.9B 超紧凑视觉语言模型增强多语种文档解析
面向文档解析的 SOTA 且资源高效的模型, 支持 109 种语言，在复杂元素（如文本、表格、公式和图表）识别方面表现出色，同时资源消耗极低。
PP-OCRv5 — 全场景文字识别
单模型支持五种文字类型（简中、繁中、英文、日文及拼音），精度提升13个百分点。解决多语言混合文档的识别难题。
PP-StructureV3 — 复杂文档解析
将复杂PDF和文档图像智能转换为保留原始结构的Markdown文件和JSON文件，在公开评测中领先众多商业方案。完美保持文档版式和层次结构。
PP-ChatOCRv4 — 智能信息抽取
原生集成ERNIE 4.5，从海量文档中精准提取关键信息，精度较上一代提升15个百分点。让文档"听懂"您的问题并给出准确答案。

PaddleOCR 3.0除了提供优秀的模型库外，还提供好学易用的工具，覆盖模型训练、推理和服务化部署，方便开发者快速落地AI应用。

本地安装

请参考安装指南完成PaddlePaddle的安装，然后安装paddleocr。

# 只希望使用基础文字识别功能（返回文字位置坐标和文本内容），包含 PP-OCR 系列
python -m pip install paddleocr
# 希望使用文档解析、文档理解、文档翻译、关键信息抽取等全部功能
# python -m pip install "paddleocr[all]"

从 3.2.0 版本开始，除了上面演示的 all 依赖组以外，PaddleOCR 也支持通过指定其它依赖组，安装部分可选功能。PaddleOCR 提供的所有依赖组如下：

依赖组名称	对应的功能
doc-parser	文档解析，可用于提取文档中的表格、公式、印章、图片等版面元素，包含 PP-StructureV3、PaddleOCR-VL 等模型方案
ie	信息抽取，可用于从文档中提取关键信息，如姓名、日期、地址、金额等，包含 PP-ChatOCRv4 等模型方案
trans	文档翻译，可用于将文档从一种语言翻译为另一种语言，包含 PP-DocTranslation 等模型方案
all	完整功能

命令行方式推理

# 运行 PP-OCRv5 推理
paddleocr ocr -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png --use_doc_orientation_classify False --use_doc_unwarping False --use_textline_orientation False 

# 运行 PP-StructureV3 推理
paddleocr pp_structurev3 -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_structure_v3_demo.png --use_doc_orientation_classify False --use_doc_unwarping False

# 运行 PP-ChatOCRv4 推理前，需要先获得千帆API Key
paddleocr pp_chatocrv4_doc -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/vehicle_certificate-1.png -k 驾驶室准乘人数 --qianfan_api_key your_api_key --use_doc_orientation_classify False --use_doc_unwarping False 

# 运行 PaddleOCR-VL 推理
paddleocr doc_parser -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png

# 查看 "paddleocr ocr" 详细参数
paddleocr ocr --help

4. API方式推理

4.1 PP-OCRv5 示例

from paddleocr import PaddleOCR
# 初始化 PaddleOCR 实例
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False)

# 对示例图像执行 OCR 推理 
result = ocr.predict(
    input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
    
# 可视化结果并保存 json 结果
for res in result:
    res.print()
    res.save_to_img("output")
    res.save_to_json("output")

仅供个人学习参考/导航指引使用，具体请以第三方网站说明为准，本站不提供任何专业建议。如果地址失效或描述有误，请联系站长反馈～感谢您的理解与支持！

链接: https://fly63.com/nav/4796