通用OCR产线使用教程¶

1. OCR产线介绍¶

OCR（光学字符识别，Optical Character Recognition）是一种将图像中的文字转换为可编辑文本的技术。它广泛应用于文档数字化、信息提取和数据处理等领域。OCR 可以识别印刷文本、手写文本，甚至某些类型的字体和符号。

通用 OCR 产线用于解决文字识别任务，提取图片中的文字信息以文本形式输出，本产线支持 PP-OCRv3、PP-OCRv4、PP-OCRv5、PP-OCRv6 模型的使用，支持超过 80 种语言的识别，并在此基础上，增加了对图像的方向矫正和扭曲矫正功能。基于本产线，可实现 CPU 上毫秒级的文本内容精准预测，使用场景覆盖通用、制造、金融、交通等各个领域。本产线同时提供了灵活的服务化部署方式，支持在多种硬件上使用多种编程语言调用。不仅如此，本产线也提供了二次开发的能力，您可以基于本产线在您自己的数据集上训练调优，训练后的模型也可以无缝集成。

PP-OCRv6 是最新一代通用 OCR 系统，基于全新设计的 PPLCNetV4 统一骨干网络，提供 tiny、small、medium 三档模型，分别面向端侧/移动端/服务端场景。PP-OCRv6 的核心升级包括：

统一骨干网络 PPLCNetV4：采用 MetaFormer 风格的 RepDW+Channel Mixer 模块设计，通过结构重参数化实现训练精度与推理效率的兼顾，同一骨干通过 Task-Adaptive Downsampling 策略同时服务检测和识别任务。
检测模块升级：引入 RepLKFPN 大核特征金字塔（7×7 感受野，相比 PP-OCRv5 的 RSEFPN 参数减少 65%），配合 DiceBCE 损失和辅助深度监督，提升小文本和密集文本的检测能力。
识别模块升级：使用轻量级 EncoderWithLightSVTR 颈部网络（局部 1×7 深度卷积 + 全局自注意力），配合 CTC+NRTR 多头解码器，medium/small 档单一模型统一支持中文、英文、日文及 46 种拉丁语系语言共 50 种语言（tiny 档支持 49 种，不含日文）。
端到端性能：PP-OCRv6_medium 在综合精度上相比 PP-OCRv5_server 提升 5.1%（识别）和 4.6%（检测）；以仅 34.5M 参数的规模，精度超越 Qwen3-VL-235B、GPT-5.5 等大型视觉语言模型。

通用OCR产线中包含必选的文本检测模块和文本识别模块，以及可选的文档图像方向分类模块、文本图像矫正模块和文本行方向分类模块。其中，文档图像方向分类模块和文本图像矫正模块作为文档预处理子产线被集成到通用OCR产线中。每个模块都包含多个模型，您可以根据下方的基准测试数据选择使用的模型。

1.1 模型基准测试数据¶

如果您更注重模型的精度，请选择精度较高的模型；如果您更在意模型的推理速度，请选择推理速度较快的模型；如果您关注模型的存储大小，请选择存储体积较小的模型。

推理耗时仅包含模型推理耗时，不包含前后处理耗时。

文档图像方向分类模块（可选）：

模型	模型下载链接	Top-1 Acc（%）	GPU推理耗时（ms） [常规模式 / 高性能模式]	CPU推理耗时（ms） [常规模式 / 高性能模式]	模型存储大小（MB）	介绍
PP-LCNet_x1_0_doc_ori	推理模型/训练模型	99.06	2.62 / 0.59	3.24 / 1.19	7	基于PP-LCNet_x1_0的文档图像分类模型，含有四个类别，即0度，90度，180度，270度

文本图像矫正模块（可选）：

模型	模型下载链接	CER	GPU推理耗时（ms） [常规模式 / 高性能模式]	CPU推理耗时（ms） [常规模式 / 高性能模式]	模型存储大小（MB）	介绍
UVDoc	推理模型/训练模型	0.179	19.05 / 19.05	- / 869.82	30.3	高精度文本图像矫正模型

文本检测模块：

模型	模型下载链接	检测Hmean（%）	GPU推理耗时（ms） [常规模式 / 高性能模式]	CPU推理耗时（ms） [常规模式 / 高性能模式]	模型存储大小（MB）	介绍
PP-OCRv6_medium_det	推理模型/训练模型	86.2*	- / -	- / -	60	PP-OCRv6 的中等规模文本检测模型，基于 PPLCNetV4 骨干网络和 RepLKFPN 特征金字塔，精度最高，适合服务端部署
PP-OCRv6_small_det	推理模型/训练模型	84.1*	- / -	- / -	9.6	PP-OCRv6 的小型文本检测模型，兼顾精度与效率，适合移动端和桌面端部署
PP-OCRv6_tiny_det	推理模型/训练模型	80.6*	- / -	- / -	1.9	PP-OCRv6 的超轻量文本检测模型（仅 0.43M 参数），适合对体积和速度要求极高的端侧/IoT 场景
PP-OCRv5_server_det	推理模型/训练模型	83.8	89.55 / 70.19	383.15 / 383.15	84.3	PP-OCRv5 的服务端文本检测模型，精度更高，适合在性能较好的服务器上部署
PP-OCRv5_mobile_det	推理模型/训练模型	79.0	10.67 / 6.36	57.77 / 28.15	4.7	PP-OCRv5 的移动端文本检测模型，效率更高，适合在端侧设备部署
PP-OCRv4_server_det	推理模型/训练模型	69.2	127.82 / 98.87	585.95 / 489.77	109	PP-OCRv4 的服务端文本检测模型，精度更高，适合在性能较好的服务器上部署
PP-OCRv4_mobile_det	推理模型/训练模型	63.8	9.87 / 4.17	56.60 / 20.79	4.7	PP-OCRv4 的移动端文本检测模型，效率更高，适合在端侧设备部署
PP-OCRv3_mobile_det	推理模型/训练模型	精度接近 PP-OCRv4_mobile_det	9.90 / 3.60	41.93 / 20.76	2.1	PP-OCRv3 的移动端文本检测模型，效率更高，适合在端侧设备部署
PP-OCRv3_server_det	推理模型/训练模型	精度接近 PP-OCRv4_server_det	119.50 / 75.00	379.35 / 318.35	102.1	PP-OCRv3 的服务端文本检测模型，精度更高，适合在性能较好的服务器上部署

*注：PP-OCRv6 指标基于内部多场景评估集测得，PP-OCRv5/v4 指标基于通用评估集测得，两者评估集不同，指标不可直接对比。

文本识别模块：

模型	模型下载链接	识别 Avg Accuracy(%)	GPU推理耗时（ms） [常规模式 / 高性能模式]	CPU推理耗时（ms） [常规模式 / 高性能模式]	模型存储大小（MB）	介绍
PP-OCRv6_medium_rec	推理模型/训练模型	83.2*	- / -	- / -	73.3	PP-OCRv6 文本识别模型，基于 PPLCNetV4 骨干 + LightSVTR 颈部 + CTC/NRTR 多头解码器，单一模型统一支持中、英、日及 46 种拉丁语系共 50 种语言（tiny 档支持 49 种）
PP-OCRv6_small_rec	推理模型/训练模型	81.3*	- / -	- / -	20
PP-OCRv6_tiny_rec	推理模型/训练模型	73.5*	- / -	- / -	4.4
PP-OCRv5_server_rec	推理模型/训练模型	86.38	8.46 / 2.36	31.21 / 31.21	81	PP-OCRv5_rec 是新一代文本识别模型。该模型致力于以单一模型高效、精准地支持简体中文、繁体中文、英文、日文四种主要语言，以及手写、竖版、拼音、生僻字等复杂文本场景的识别。在保持识别效果的同时，兼顾推理速度和模型鲁棒性，为各种场景下的文档理解提供高效、精准的技术支撑。
PP-OCRv5_mobile_rec	推理模型/训练模型	81.29	5.43 / 1.46	21.20 / 5.32	16
PP-OCRv4_server_rec_doc	推理模型/训练模型	86.58	8.69 / 2.78	37.93 / 37.93	182	PP-OCRv4_server_rec_doc是在PP-OCRv4_server_rec的基础上，在更多中文文档数据和PP-OCR训练数据的混合数据训练而成，增加了部分繁体字、日文、特殊字符的识别能力，可支持识别的字符为1.5万+，除文档相关的文字识别能力提升外，也同时提升了通用文字的识别能力
PP-OCRv4_mobile_rec	推理模型/训练模型	78.74	5.26 / 1.12	17.48 / 3.61	10.5	PP-OCRv4的轻量级识别模型，推理效率高，可以部署在包含端侧设备的多种硬件设备中
PP-OCRv4_server_rec	推理模型/训练模型	85.19	8.75 / 2.49	36.93 / 36.93	173	PP-OCRv4的服务器端模型，推理精度高，可以部署在多种不同的服务器上
en_PP-OCRv4_mobile_rec	推理模型/训练模型	70.39	4.81 / 1.23	17.20 / 4.18	7.5	基于PP-OCRv4识别模型训练得到的超轻量英文识别模型，支持英文、数字识别

*注：PP-OCRv6 指标基于内部多场景评估集测得，PP-OCRv5/v4 指标基于通用评估集测得，两者评估集不同，指标不可直接对比。

❗ 以上列出的是文本识别模块重点支持的4个核心模型，该模块总共支持18个全量模型，包含多个多语言文本识别模型，完整的模型列表如下：

👉模型列表详情

* PP-OCRv6 多场景模型

模型	模型下载链接	中文识别 Avg Accuracy(%)	英文识别 Avg Accuracy(%)	繁体中文识别 Avg Accuracy(%)	日文识别 Avg Accuracy(%)	GPU推理耗时（ms） [常规模式 / 高性能模式]	CPU推理耗时（ms） [常规模式 / 高性能模式]	模型存储大小（MB）	介绍

* PP-OCRv5 多场景模型

模型	模型下载链接	中文识别 Avg Accuracy(%)	英文识别 Avg Accuracy(%)	繁体中文识别 Avg Accuracy(%)	日文识别 Avg Accuracy(%)	GPU推理耗时（ms） [常规模式 / 高性能模式]	CPU推理耗时（ms） [常规模式 / 高性能模式]	模型存储大小（MB）	介绍
PP-OCRv6_medium_rec	推理模型/训练模型	-	-	-	-	- / -	- / -	-	PP-OCRv6 文本识别模型
PP-OCRv6_small_rec	推理模型/训练模型	-	-	-	-	- / -	- / -	-
PP-OCRv6_tiny_rec	推理模型/训练模型	-	-	-	-	- / -	- / -	-
PP-OCRv5_server_rec	推理模型/训练模型	86.38	64.70	93.29	60.35	8.46 / 2.36	31.21 / 31.21	81	PP-OCRv5_rec 是新一代文本识别模型。该模型致力于以单一模型高效、精准地支持简体中文、繁体中文、英文、日文四种主要语言，以及手写、竖版、拼音、生僻字等复杂文本场景的识别。在保持识别效果的同时，兼顾推理速度和模型鲁棒性，为各种场景下的文档理解提供高效、精准的技术支撑。
PP-OCRv5_mobile_rec	推理模型/训练模型	81.29	66.00	83.55	54.65	5.43 / 1.46	21.20 / 5.32	16

* 中文识别模型

模型	模型下载链接	识别 Avg Accuracy(%)	GPU推理耗时（ms） [常规模式 / 高性能模式]	CPU推理耗时（ms） [常规模式 / 高性能模式]	模型存储大小（MB）	介绍
PP-OCRv4_server_rec_doc	推理模型/训练模型	86.58	8.69 / 2.78	37.93 / 37.93	182	PP-OCRv4_server_rec_doc是在PP-OCRv4_server_rec的基础上，在更多中文文档数据和PP-OCR训练数据的混合数据训练而成，增加了部分繁体字、日文、特殊字符的识别能力，可支持识别的字符为1.5万+，除文档相关的文字识别能力提升外，也同时提升了通用文字的识别能力
PP-OCRv4_mobile_rec	推理模型/训练模型	78.74	5.26 / 1.12	17.48 / 3.61	10.5	PP-OCRv4的轻量级识别模型，推理效率高，可以部署在包含端侧设备的多种硬件设备中
PP-OCRv4_server_rec	推理模型/训练模型	85.19	8.75 / 2.49	36.93 / 36.93	173	PP-OCRv4的服务器端模型，推理精度高，可以部署在多种不同的服务器上
PP-OCRv3_mobile_rec	推理模型/训练模型	72.96	3.89 / 1.16	8.72 / 3.56	10.3	PP-OCRv3的轻量级识别模型，推理效率高，可以部署在包含端侧设备的多种硬件设备中

模型	模型下载链接	识别 Avg Accuracy(%)	GPU推理耗时（ms） [常规模式 / 高性能模式]	CPU推理耗时（ms） [常规模式 / 高性能模式]	模型存储大小（MB）	介绍
ch_SVTRv2_rec	推理模型/训练模型	68.81	10.38 / 8.31	66.52 / 30.83	80.5	SVTRv2 是一种由复旦大学视觉与学习实验室（FVL）的OpenOCR团队研发的服务端文本识别模型，其在PaddleOCR算法模型挑战赛 - 赛题一：OCR端到端识别任务中荣获一等奖，A榜端到端识别精度相比PP-OCRv4提升6%。

模型	模型下载链接	识别 Avg Accuracy(%)	GPU推理耗时（ms） [常规模式 / 高性能模式]	CPU推理耗时（ms） [常规模式 / 高性能模式]	模型存储大小（MB）	介绍
ch_RepSVTR_rec	推理模型/训练模型	65.07	6.29 / 1.57	20.64 / 5.40	48.8	RepSVTR 文本识别模型是一种基于SVTRv2 的移动端文本识别模型，其在PaddleOCR算法模型挑战赛 - 赛题一：OCR端到端识别任务中荣获一等奖，B榜端到端识别精度相比PP-OCRv4提升2.5%，推理速度持平。

* 英文识别模型

模型	模型下载链接	识别 Avg Accuracy(%)	GPU推理耗时（ms） [常规模式 / 高性能模式]	CPU推理耗时（ms） [常规模式 / 高性能模式]	模型存储大小（MB）	介绍
en_PP-OCRv5_mobile_rec	推理模型/训练模型	85.25	-	-	7.5	基于PP-OCRv5识别模型训练得到的超轻量英文识别模型，支持英文、数字识别
en_PP-OCRv4_mobile_rec	推理模型/训练模型	70.39	4.81 / 1.23	17.20 / 4.18	7.5	基于PP-OCRv4识别模型训练得到的超轻量英文识别模型，支持英文、数字识别
en_PP-OCRv3_mobile_rec	推理模型/训练模型	70.69	3.56 / 0.78	8.44 / 5.78	17.3	基于PP-OCRv3识别模型训练得到的超轻量英文识别模型，支持英文、数字识别

* 多语言识别模型

模型	模型下载链接	识别 Avg Accuracy(%)	GPU推理耗时（ms） [常规模式 / 高性能模式]	CPU推理耗时（ms） [常规模式 / 高性能模式]	模型存储大小（MB）	介绍
korean_PP-OCRv5_mobile_rec	推理模型/训练模型	90.45	5.43 / 1.46	21.20 / 5.32	14	基于PP-OCRv5识别模型训练得到的超轻量韩文识别模型，支持韩文、英文和数字识别
latin_PP-OCRv5_mobile_rec	推理模型/训练模型	84.7	5.43 / 1.46	21.20 / 5.32	14	基于PP-OCRv5识别模型训练得到的拉丁文识别模型，支持大部分拉丁字母语言、数字识别
eslav_PP-OCRv5_mobile_rec	推理模型/训练模型	85.8	5.43 / 1.46	21.20 / 5.32	14	基于PP-OCRv5识别模型训练得到的东斯拉夫语言识别模型，支持东斯拉夫语言、英文和数字识别
th_PP-OCRv5_mobile_rec	推理模型/训练模型	82.68	-	-	7.5	基于PP-OCRv5识别模型训练得到的泰语识别模型，支持泰语、英文和数字识别
el_PP-OCRv5_mobile_rec	推理模型/训练模型	89.28	-	-	7.5	基于PP-OCRv5识别模型训练得到的希腊语识别模型，支持希腊语、英文和数字识别
arabic_PP-OCRv5_mobile_rec	推理模型/训练模型	81.27	-	-	7.6	基于PP-OCRv5识别模型训练得到的超轻量阿拉伯字母识别模型，支持阿拉伯字母、数字识别
cyrillic_PP-OCRv5_mobile_rec	推理模型/训练模型	80.27	-	-	7.7	基于PP-OCRv5识别模型训练得到的超轻量斯拉夫字母识别模型，支持斯拉夫字母、数字识别
devanagari_PP-OCRv5_mobile_rec	推理模型/训练模型	84.96	-	-	7.5	基于PP-OCRv5识别模型训练得到的超轻量天城文识别模型，支持印地文、梵文等字母以及数字识别
te_PP-OCRv5_mobile_rec	推理模型/训练模型	87.65	-	-	7.5	基于PP-OCRv5识别模型训练得到的超轻量泰卢固文识别模型，支持泰卢固文、数字识别
ta_PP-OCRv5_mobile_rec	推理模型/训练模型	94.2	-	-	7.5	基于PP-OCRv5识别模型训练得到的超轻量泰米尔文识别模型，支持泰米尔文、数字识别
korean_PP-OCRv3_mobile_rec	推理模型/训练模型	60.21	3.73 / 0.98	8.76 / 2.91	9.6	基于PP-OCRv3识别模型训练得到的超轻量韩文识别模型，支持韩文、数字识别
japan_PP-OCRv3_mobile_rec	推理模型/训练模型	45.69	3.86 / 1.01	8.62 / 2.92	9.8	基于PP-OCRv3识别模型训练得到的超轻量日文识别模型，支持日文、数字识别
chinese_cht_PP-OCRv3_mobile_rec	推理模型/训练模型	82.06	3.90 / 1.16	9.24 / 3.18	10.8	基于PP-OCRv3识别模型训练得到的超轻量繁体中文识别模型，支持繁体中文、数字识别
te_PP-OCRv3_mobile_rec	推理模型/训练模型	95.88	3.59 / 0.81	8.28 / 6.21	8.7	基于PP-OCRv3识别模型训练得到的超轻量泰卢固文识别模型，支持泰卢固文、数字识别
ka_PP-OCRv3_mobile_rec	推理模型/训练模型	96.96	3.49 / 0.89	8.63 / 2.77	17.4	基于PP-OCRv3识别模型训练得到的超轻量卡纳达文识别模型，支持卡纳达文、数字识别
ta_PP-OCRv3_mobile_rec	推理模型/训练模型	76.83	3.49 / 0.86	8.35 / 3.41	8.7	基于PP-OCRv3识别模型训练得到的超轻量泰米尔文识别模型，支持泰米尔文、数字识别
latin_PP-OCRv3_mobile_rec	推理模型/训练模型	76.93	3.53 / 0.78	8.50 / 6.83	8.7	基于PP-OCRv3识别模型训练得到的超轻量拉丁文识别模型，支持拉丁文、数字识别
arabic_PP-OCRv3_mobile_rec	推理模型/训练模型	73.55	3.60 / 0.83	8.44 / 4.69	17.3	基于PP-OCRv3识别模型训练得到的超轻量阿拉伯字母识别模型，支持阿拉伯字母、数字识别
cyrillic_PP-OCRv3_mobile_rec	推理模型/训练模型	94.28	3.56 / 0.79	8.22 / 2.76	8.7	基于PP-OCRv3识别模型训练得到的超轻量斯拉夫字母识别模型，支持斯拉夫字母、数字识别
devanagari_PP-OCRv3_mobile_rec	推理模型/训练模型	96.44	3.60 / 0.78	6.95 / 2.87	8.7	基于PP-OCRv3识别模型训练得到的超轻量梵文字母识别模型，支持梵文字母、数字识别

文本行方向分类模块（可选）：

模型	模型下载链接	Top-1 Acc（%）	GPU推理耗时（ms） [常规模式 / 高性能模式]	CPU推理耗时（ms） [常规模式 / 高性能模式]	模型存储大小（MB）	介绍
PP-LCNet_x0_25_textline_ori	推理模型/训练模型	98.85	2.16 / 0.41	2.37 / 0.73	0.96	基于PP-LCNet_x0_25的文本行分类模型，含有两个类别，即0度，180度
PP-LCNet_x1_0_textline_ori	推理模型/训练模型	99.42	- / -	2.98 / 2.98	6.5	基于PP-LCNet_x1_0的文本行分类模型，含有两个类别，即0度，180度

测试环境说明:

性能测试环境
- 测试数据集：
  - 文档图像方向分类模型：PaddleX 自建的数据集，覆盖证件和文档等多个场景，包含 1000 张图片。
  - 文本图像矫正模型：DocUNet。
  - 文本检测模型：PaddleOCR 自建的中文数据集，覆盖街景、网图、文档、手写多个场景，其中检测包含 500 张图片。
  - 中文识别模型： PaddleOCR 自建的中文数据集，覆盖街景、网图、文档、手写多个场景，其中文本识别包含 1.1w 张图片。
  - ch_SVTRv2_rec：PaddleOCR算法模型挑战赛 - 赛题一：OCR端到端识别任务A榜评估集。
  - ch_RepSVTR_rec：PaddleOCR算法模型挑战赛 - 赛题一：OCR端到端识别任务B榜评估集。
  - 英文识别模型：PaddleX 自建的英文数据集。
  - 多语言识别模型：PaddleX 自建的多语种数据集。
  - 文本行方向分类模型：PaddleX 自建的数据集，覆盖证件和文档等多个场景，包含 1000 张图片。
- 硬件配置：
  - GPU：NVIDIA Tesla T4
  - CPU：Intel Xeon Gold 6271C @ 2.60GHz
- 软件环境：
  - Ubuntu 20.04 / CUDA 11.8 / cuDNN 8.9 / TensorRT 8.6.1.6
  - paddlepaddle 3.0.0 / paddlex 3.0.3
推理模式说明

模式	GPU配置	CPU配置	加速技术组合
常规模式	FP32精度 / 无TRT加速	FP32精度 / 8线程	PaddleInference
高性能模式	选择先验精度类型和加速策略的最优组合	FP32精度 / 8线程	选择先验最优后端（Paddle/OpenVINO/TRT等）

1.2 产线基准测试数据¶

点击展开/折叠表格

流水线配置	硬件	平均推理时间 (s)	峰值CPU利用率 (%)	平均CPU利用率 (%)	峰值主机内存 (MB)	平均主机内存 (MB)	峰值GPU利用率 (%)	平均GPU利用率 (%)	峰值设备内存 (MB)	平均设备内存 (MB)
OCR-default	Intel 6271C	3.97	1015.40	917.61	4381.22	3457.78	N/A	N/A	N/A	N/A
	Intel 8350C	3.79	1022.50	921.68	4675.46	3585.96	N/A	N/A	N/A	N/A
	Intel 8350C + A100	0.65	113.50	102.48	2240.15	1868.44	47	19.60	7612.00	6634.15
	Intel 6271C + V100	1.06	114.90	103.05	2142.66	1791.43	72	20.01	5516.00	4812.81
	Intel 8563C + H20	0.65	108.90	101.95	2456.05	2080.26	100	36.52	6736.00	6017.05
	Intel 8350C + A10	0.74	115.90	102.22	2352.88	1993.39	100	25.56	6762.00	6039.93
	Intel 6271C + T4	1.17	107.10	101.78	2361.88	1986.61	100	51.11	5282.00	4585.10
OCR-nopp-mobile	Intel 6271C	1.39	1019.60	1007.69	2178.12	1873.73	N/A	N/A	N/A	N/A
	Intel 8350C	1.15	1015.70	1006.87	2184.91	1916.85	N/A	N/A	N/A	N/A
	Hygon 7490 + P800	0.35	110.80	103.77	2022.49	1808.11	N/A	N/A	N/A	N/A
	Intel 8350C + A100	0.27	110.90	103.80	1762.36	1525.04	31	19.30	4328.00	3356.30
	Intel 6271C + V100	0.55	113.80	103.68	1728.02	1470.52	38	18.59	4198.00	3199.12
	Intel 8563C + H20	0.22	111.90	103.99	2073.88	1876.14	32	20.25	4386.00	3435.86
	Intel 8350C + A10	0.31	119.90	104.24	2037.38	1771.06	52	32.74	3446.00	2733.21
	M4	6.51	147.30	106.24	3550.58	3236.75	N/A	N/A	N/A	N/A
	Intel 6271C + T4	0.46	111.90	103.11	2035.38	1742.39	65	46.77	3968.00	2991.91
OCR-nopp-server	Intel 6271C	3.00	1016.00	1004.87	4445.46	3179.86	N/A	N/A	N/A	N/A
	Intel 8350C	3.23	1010.70	1002.63	4175.39	3137.58	N/A	N/A	N/A	N/A
	Intel 8350C + A100	0.34	110.90	103.30	1904.99	1591.10	57	32.29	7494.00	6551.47
	Intel 6271C + V100	0.69	108.90	102.95	1808.30	1568.64	72	35.30	5410.00	4741.18
	Intel 8563C + H20	0.38	109.40	102.34	2100.00	1863.73	100	50.18	6614.00	5926.51
	Intel 8350C + A10	0.41	109.00	103.18	2055.21	1845.14	100	47.15	6654.00	5951.22
	Intel 6271C + T4	0.82	104.40	101.73	1906.88	1689.69	100	76.41	5178.00	4502.64
OCR-nopp-min736-mobile	Intel 6271C	1.41	1020.10	1008.14	2184.16	1911.86	N/A	N/A	N/A	N/A
	Intel 8350C	1.20	1015.70	1007.08	2254.04	1935.18	N/A	N/A	N/A	N/A
	Hygon 7490 + P800	0.36	112.90	104.29	2174.58	1827.67	N/A	N/A	N/A	N/A
	Intel 8350C + A100	0.27	113.90	104.48	1717.55	1529.77	30	19.54	4328.00	3388.44
	Intel 6271C + V100	0.57	118.80	104.45	1693.10	1470.74	40	19.83	4198.00	3206.91
	Intel 8563C + H20	0.22	113.40	104.66	2037.13	1797.10	31	20.64	4384.00	3427.91
	Intel 8350C + A10	0.31	119.30	106.05	1879.15	1732.39	49	30.40	3446.00	2751.08
	M4	6.39	124.90	107.16	3578.98	3209.90	N/A	N/A	N/A	N/A
	Intel 6271C + T4	0.47	109.60	103.26	1961.40	1742.95	60	44.26	3968.00	3002.81
OCR-nopp-min736-server	Intel 6271C	3.26	1068.50	1004.96	4582.52	3135.68	N/A	N/A	N/A	N/A
	Intel 8350C	3.52	1010.70	1002.33	4723.23	3209.27	N/A	N/A	N/A	N/A
	Intel 8350C + A100	0.35	108.90	103.94	1703.65	1485.50	60	35.54	7492.00	6576.97
	Intel 6271C + V100	0.71	110.80	103.54	1800.06	1559.28	78	36.65	5410.00	4741.55
	Intel 8563C + H20	0.40	110.20	102.75	2012.64	1843.45	100	55.74	6614.00	5940.44
	Intel 8350C + A10	0.44	114.90	103.87	2002.72	1773.17	100	49.28	6654.00	5980.68
	Intel 6271C + T4	0.89	105.00	101.91	2149.31	1795.35	100	76.39	5176.00	4528.77
OCR-nopp-max640-mobile	Intel 6271C	1.00	1033.70	1005.95	2021.88	1743.27	N/A	N/A	N/A	N/A
	Intel 8350C	0.88	1043.60	1006.77	1980.82	1724.51	N/A	N/A	N/A	N/A
	Hygon 7490 + P800	0.28	125.70	101.56	1962.27	1782.68	N/A	N/A	N/A	N/A
	Intel 8350C + A100	0.21	122.50	101.87	1772.39	1569.55	29	18.74	2360.00	2039.07
	Intel 6271C + V100	0.43	133.80	101.82	1636.93	1464.10	37	20.94	2386.00	2055.30
	Intel 8563C + H20	0.18	119.90	102.12	2119.93	1889.49	29	20.92	2636.00	2321.11
	Intel 8350C + A10	0.24	126.80	101.78	1905.14	1739.93	48	30.71	2232.00	1911.18
	M4	7.08	137.80	104.83	2931.08	2658.25	N/A	N/A	N/A	N/A
	Intel 6271C + T4	0.36	124.80	101.70	1983.21	1729.43	61	46.10	2162.00	1836.63
OCR-nopp-max960-mobile	Intel 6271C	1.21	1020.00	1008.49	2200.30	1800.74	N/A	N/A	N/A	N/A
	Intel 8350C	1.01	1024.10	1007.32	2038.80	1800.05	N/A	N/A	N/A	N/A
	Hygon 7490 + P800	0.32	107.50	102.00	2001.21	1799.01	N/A	N/A	N/A	N/A
	Intel 8350C + A100	0.23	107.70	102.33	1727.89	1490.18	30	20.19	2646.00	2385.40
	Intel 6271C + V100	0.49	109.90	102.26	1726.01	1504.90	38	20.11	2498.00	2227.73
	Intel 8563C + H20	0.20	109.90	102.52	1959.46	1798.35	28	19.38	2712.00	2450.10
	Intel 8350C + A10	0.27	102.90	101.19	1938.48	1741.19	47	29.27	3344.00	2585.02
	M4	5.44	122.10	105.91	3094.72	2686.52	N/A	N/A	N/A	N/A
	Intel 6271C + T4	0.41	106.00	101.81	1859.88	1722.62	68	47.05	2264.00	2001.07
OCR-nopp-max640-server	Intel 6271C	2.16	1026.30	1005.10	3467.93	3074.06	N/A	N/A	N/A	N/A
	Intel 8350C	2.30	1008.70	1003.32	3435.54	3042.62	N/A	N/A	N/A	N/A
	Hygon 7490 + P800	0.35	104.70	101.27	1948.85	1779.77	N/A	N/A	N/A	N/A
	Intel 8350C + A100	0.25	104.90	101.42	1833.93	1560.71	41	27.61	4480.00	3955.14
	Intel 6271C + V100	0.56	106.20	101.47	1669.73	1500.87	58	31.78	3160.00	2838.78
	Intel 8563C + H20	0.23	109.40	101.45	1968.77	1800.81	58	30.81	2602.00	2588.77
	Intel 8350C + A10	0.30	106.10	101.55	2027.13	1749.07	69	39.10	3318.00	2795.54
	M4	7.26	133.90	104.48	5473.38	3472.28	N/A	N/A	N/A	N/A
	Intel 6271C + T4	0.58	103.90	100.86	1884.23	1714.48	84	63.50	2852.00	2540.37
OCR-nopp-max960-server	Intel 6271C	2.53	1014.50	1005.22	3625.57	3151.73	N/A	N/A	N/A	N/A
	Intel 8350C	2.66	1010.60	1003.39	3580.64	3197.09	N/A	N/A	N/A	N/A
	Hygon 7490 + P800	0.40	105.90	101.76	2040.65	1810.97	N/A	N/A	N/A	N/A
	Intel 8350C + A100	0.29	108.90	102.12	1821.03	1620.02	44	30.38	4290.00	2928.79
	Intel 6271C + V100	0.60	109.90	101.98	1797.75	1544.96	61	32.48	2936.00	2117.71
	Intel 8563C + H20	0.28	108.80	101.92	2016.22	1811.74	73	41.82	2636.00	2241.23
	Intel 8350C + A10	0.34	111.00	102.75	1964.21	1750.21	68	41.25	2722.00	2293.74
	M4	6.28	129.10	103.74	7780.70	3571.92	N/A	N/A	N/A	N/A
	Intel 6271C + T4	0.67	116.90	101.33	1941.09	1693.39	88	65.48	2714.00	1923.06
OCR-nopp-min1280-server	Intel 6271C	4.13	1043.40	1005.45	5993.70	3454.00	N/A	N/A	N/A	N/A
	Intel 8350C	4.46	1011.70	996.72	5633.51	3489.79	N/A	N/A	N/A	N/A
	Intel 8350C + A100	0.42	113.90	106.08	1747.88	1546.18	85	43.73	13558.00	11297.98
	Intel 6271C + V100	0.82	116.80	105.18	1873.38	1609.55	100	39.57	10376.00	8427.30
	Intel 8563C + H20	0.55	114.80	103.14	2036.36	1864.45	100	69.67	13224.00	11411.31
	Intel 8350C + A10	0.55	105.90	101.86	1931.35	1764.44	100	56.16	12418.00	10510.77
	Intel 6271C + T4	1.13	105.90	102.35	2066.73	1787.78	100	83.50	10142.00	8338.80
OCR-nopp-min1280-mobile	Intel 6271C	1.59	1019.90	1008.39	2366.86	1992.03	N/A	N/A	N/A	N/A
	Intel 8350C	1.29	1017.70	1007.28	2501.24	2059.99	N/A	N/A	N/A	N/A
	Hygon 7490 + P800	0.43	120.90	107.02	2108.87	1821.91	N/A	N/A	N/A	N/A
	Intel 8350C + A100	0.29	117.90	107.19	1847.97	1570.89	31	18.98	3746.00	3321.86
	Intel 6271C + V100	0.61	122.80	107.07	1789.25	1542.56	39	20.52	4058.00	3487.46
	Intel 8563C + H20	0.24	116.80	106.80	2092.63	1882.77	28	18.67	3902.00	3444.00
	Intel 8350C + A10	0.34	125.80	106.79	1959.45	1783.97	49	32.66	3532.00	3094.29
	M4	6.64	139.40	107.63	4283.97	3112.59	N/A	N/A	N/A	N/A
	Intel 6271C + T4	0.51	116.90	105.06	1927.22	1675.34	68	45.78	3828.00	3283.78

Pipeline configuration	description
OCR-default	默认配置
OCR-nopp-mobile	默认配置基础上，关闭文档图像预处理，使用mobile的det和rec模型
OCR-nopp-server	默认配置基础上，关闭文档图像预处理
OCR-nopp-min736-mobile	默认配置基础上，关闭文档图像预处理，det模型输入缩放策略为min+736，使用mobile的det和rec模型
OCR-nopp-min736-server	默认配置基础上，关闭文档图像预处理，det模型输入缩放策略为min+736
OCR-nopp-max640-mobile	默认配置基础上，关闭文档图像预处理，det模型输入缩放策略为max+640，使用mobile的det和rec模型
OCR-nopp-max960-mobile	默认配置基础上，关闭文档图像预处理，det模型输入缩放策略为max+960，使用mobile的det和rec模型
OCR-nopp-max640-server	默认配置基础上，关闭文档图像预处理，det模型输入缩放策略为max+640
OCR-nopp-max960-server	默认配置基础上，关闭文档图像预处理，det模型输入缩放策略为max+960
OCR-nopp-min1280-server	默认配置基础上，关闭文档图像预处理，det模型输入缩放策略为min+1280
OCR-nopp-min1280-mobile	默认配置基础上，关闭文档图像预处理，det模型输入缩放策略为min+1280，使用mobile的det和rec模型

测试环境：
- PaddlePaddle 3.1.0、CUDA 11.8、cuDNN 8.9
- PaddleX @ develop (f1eb28e)
- Docker image: ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddle:3.1.0-gpu-cuda11.8-cudnn8.9
测试数据：
- 测试数据包含文档场景和通用场景的200张图像。
测试策略：
- 使用 20 个样本进行预热，然后对整个数据集重复 1 次以进行速度性能测试。
备注：
- 由于我们没有收集NPU和XPU的设备内存数据，因此表中相应位置的数据标记为N/A。

2. 快速开始¶

PaddleX 所提供的模型产线均可以快速体验效果，你可以在星河社区线体验通用 OCR 产线的效果，也可以在本地使用命令行或 Python 体验通用 OCR 产线的效果。

2.1 在线体验¶

您可以在线体验通用 OCR 产线的效果，用官方提供的 Demo 图片进行识别，例如：

如果您对产线运行的效果满意，可以直接进行集成部署。您可以选择从云端下载部署包，也可以参考2.2节本地体验中的方法进行本地部署。如果对效果不满意，您可以利用私有数据对产线中的模型进行微调训练。如果您具备本地训练的硬件资源，可以直接在本地开展训练；如果没有，星河零代码平台提供了一键式训练服务，无需编写代码，只需上传数据后，即可一键启动训练任务。

2.2 本地体验¶

❗ 在本地使用通用OCR产线前，请确保您已经按照PaddleX安装教程完成了PaddleX的wheel包安装。如果您希望选择性安装依赖，请参考安装教程中的相关说明。该产线对应的依赖分组为 ocr。

2.2.1 命令行方式体验¶

一行命令即可快速体验OCR产线效果，使用测试文件，并将 --input 替换为本地路径，进行预测

paddlex --pipeline OCR \
        --input general_ocr_002.png \
        --use_doc_orientation_classify False \
        --use_doc_unwarping False \
        --use_textline_orientation False \
        --save_path ./output \
        --device gpu:0

注：PaddleX 支持多个模型托管平台，官方模型默认优先从 HuggingFace 下载。PaddleX 也支持通过环境变量 PADDLE_PDX_MODEL_SOURCE 设置优先使用的托管平台，目前支持 huggingface、aistudio、bos、modelscope，如优先使用 bos：PADDLE_PDX_MODEL_SOURCE="bos"；

相关的参数说明可以参考2.2.2 Python脚本方式集成中的参数说明。支持同时指定多个设备以进行并行推理，详情请参考产线并行推理。

运行后，会将结果打印到终端上，结果如下：

运行结果参数说明可以参考2.2.2 Python脚本方式集成中的结果解释 href="#__codelineno-1-1">{'res': {'input_path': './general_ocr_002.png', 'page_index': None, 'model_settings': {'use_doc_preprocessor': False, 'use_textline_orientation': False}, 'dt_polys': array([[[ 3, 10], ..., [ 4, 30]], ..., [[ 99, 456], ..., [ 99, 479]]], dtype=int16), 'text_det_params': {'limit_side_len': 736, 'limit_type': 'min', 'thresh': 0.3, 'max_side_limit': 4000, 'box_thresh': 0.6, 'unclip_ratio': 1.5}, 'text_type': 'general', 'textline_orientation_angles': array([-1, ..., -1]), 'text_rec_score_thresh': 0.0, 'rec_texts': ['www.997700', '', 'Cm', '登机牌', 'BOARDING', 'PASS', 'CLASS', '序号SERIAL NO.', '座位号', 'SEAT NO.', '航班FLIGHT', '日期DATE', '舱位', '', 'W', '035', '12F', 'MU2379', '03DEc', '始发地', 'FROM', '登机口', 'GATE', '登机时间BDT', '目的地TO', '福州', 'TAIYUAN', 'G11', 'FUZHOU', '身份识别IDNO.', '姓名NAME', 'ZHANGQIWEI', '票号TKT NO.', '张祺伟', '票价FARE', 'ETKT7813699238489/1', '登机口于起飞前10分钟关闭 GATESCL0SE10MINUTESBEFOREDEPARTURETIME'], 'rec_scores': array([0.67634439, ..., 0.97416091]), 'rec_polys': array([[[ 3, 10], ..., [ 4, 30]], ..., [[ 99, 456], ..., [ 99, 479]]], dtype=int16), 'rec_boxes': array([[ 3, ..., 30], ..., [ 99, ..., 479]], dtype=int16)}} 。

可视化结果保存在save_path下，其中OCR的可视化结果如下：

2.2.2 Python脚本方式集成¶

上述命令行是为了快速体验查看效果，一般来说，在项目中，往往需要通过代码集成，您可以通过几行代码即可完成产线的快速推理，推理代码如下：

from paddlex import create_pipeline

pipeline = create_pipeline(pipeline="OCR")

output = pipeline.predict(
    input="./general_ocr_002.png",
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
)
for res in output:
    res.print()
    res.save_to_img(save_path="./output/")
    res.save_to_json(save_path="./output/")

在上述 Python 脚本中，执行了如下几个步骤：

（1）通过 create_pipeline() 实例化 OCR 产线对象，具体参数说明如下：

参数	参数说明	参数类型	默认值
`pipeline`	产线名称或是产线配置文件路径。如为产线名称，则必须为 PaddleX 所支持的产线。	`str`	`None`
`config`	产线具体的配置信息（如果和`pipeline`同时设置，优先级高于`pipeline`，且要求产线名和`pipeline`一致）。	`dict[str, Any]`	`None`
`device`	产线推理设备。支持指定GPU具体卡号，如“gpu:0”，其他硬件具体卡号，如“npu:0”，CPU如“cpu”。支持同时指定多个设备以进行并行推理，详情请参考产线并行推理文档。	`str`	`gpu:0`
`use_hpip`	是否启用高性能推理插件。如果为 `None`，则使用配置文件或 `config` 中的配置。	`bool` \| `None`	无	`None`
`hpi_config`	高性能推理配置	`dict` \| `None`	无	`None`
`engine`	推理引擎	`str \| None`	可选 `paddle`、`paddle_static`、`paddle_dynamic`、`hpi`、`flexible`、`transformers`、`genai_client`。	`None`
`engine_config`	推理引擎配置	`dict \| None`	不同引擎支持不同字段，请参考推理引擎与配置。	`None`
`pp_option`	用于改变运行模式等配置项	`PaddlePredictorOption`	关于推理配置的详细说明，请参考兼容配置（PaddlePredictorOption）。	`None`

（2）调用 OCR 产线对象的 predict() 方法进行推理预测。该方法将返回一个 generator。以下是 predict() 方法的参数及其说明：

参数	参数说明	参数类型	可选项	默认值
`input`	待预测数据，支持多种输入类型，必填	`Python Var\|str\|list`	Python Var：如 `numpy.ndarray` 表示的图像数据 str：如图像文件或者PDF文件的本地路径：`/root/data/img.jpg`；如URL链接，如图像文件或PDF文件的网络URL：示例；如本地目录，该目录下需包含待预测图像，如本地路径：`/root/data/`(当前不支持目录中包含PDF文件的预测，PDF文件需要指定到具体文件路径) List：列表元素需为上述类型数据，如`[numpy.ndarray, numpy.ndarray]`，`[\"/root/data/img1.jpg\", \"/root/data/img2.jpg\"]`，`[\"/root/data1\", \"/root/data2\"]`	`None`
`use_doc_orientation_classify`	是否使用文档方向分类模块	`bool\|None`	bool：`True` 或者 `False`； None：如果设置为`None`, 将默认使用产线初始化的该参数值，初始化为`True`；	`None`
`use_doc_unwarping`	是否使用文档扭曲矫正模块	`bool\|None`	bool：`True` 或者 `False`； None：如果设置为`None`, 将默认使用产线初始化的该参数值，初始化为`True`；	`None`
`use_textline_orientation`	是否使用文本行方向分类模块	`bool\|None`	bool：`True` 或者 `False`； None：如果设置为`None`, 将默认使用产线初始化的该参数值，初始化为`True`；	`None`
`text_det_limit_side_len`	文本检测的图像边长限制	`int\|None`	int：大于 `0` 的任意整数； None：如果设置为 `None`, 将默认使用产线初始化的该参数值，初始化为 `64`；	`None`
`text_det_limit_type`	文本检测的图像边长限制类型	`str\|None`	str：支持 `min` 和 `max`，`min` 表示保证图像最短边不小于 `det_limit_side_len`，`max` 表示保证图像最长边不大于 `limit_side_len` None：如果设置为 `None`, 将默认使用产线初始化的该参数值，初始化为 `min`；	`None`
`text_det_thresh`	检测像素阈值，输出的概率图中，得分大于该阈值的像素点才会被认为是文字像素点	`float\|None`	float：大于 `0` 的任意浮点数 None：如果设置为 `None`, 将默认使用产线初始化的该参数值 `0.3`	`None`
`text_det_box_thresh`	检测框阈值，检测结果边框内，所有像素点的平均得分大于该阈值时，该结果会被认为是文字区域	`float\|None`	float：大于 `0` 的任意浮点数 None：如果设置为 `None`, 将默认使用产线初始化的该参数值 `0.6`	`None`
`text_det_unclip_ratio`	文本检测扩张系数，使用该方法对文字区域进行扩张，该值越大，扩张的面积越大	`float\|None`	float：大于 `0` 的任意浮点数 None：如果设置为 `None`, 将默认使用产线初始化的该参数值 `2.0`	`None`
`text_rec_score_thresh`	文本识别阈值，得分大于该阈值的文本结果会被保留	`float\|None`	float：大于 `0` 的任意浮点数 None：如果设置为 `None`, 将默认使用产线初始化的该参数值 `0.0`。即不设阈值	`None`

（3）对预测结果进行处理，每个样本的预测结果均为对应的Result对象，且支持打印、保存为图片、保存为json文件的操作:

方法	方法说明	参数	参数类型	参数说明	默认值
`print()`	打印结果到终端	`format_json`	`bool`	是否对输出内容进行使用 `JSON` 缩进格式化	`True`
		`indent`	`int`	指定缩进级别，以美化输出的 `JSON` 数据，使其更具可读性，仅当 `format_json` 为 `True` 时有效	4
		`ensure_ascii`	`bool`	控制是否将非 `ASCII` 字符转义为 `Unicode`。设置为 `True` 时，所有非 `ASCII` 字符将被转义；`False` 则保留原始字符，仅当`format_json`为`True`时有效	`False`
`save_to_json()`	将结果保存为json格式的文件	`save_path`	`str`	保存的文件路径，当为目录时，保存文件命名与输入文件类型命名一致	无
		`indent`	`int`	指定缩进级别，以美化输出的 `JSON` 数据，使其更具可读性，仅当 `format_json` 为 `True` 时有效	4
		`ensure_ascii`	`bool`	控制是否将非 `ASCII` 字符转义为 `Unicode`。设置为 `True` 时，所有非 `ASCII` 字符将被转义；`False` 则保留原始字符，仅当`format_json`为`True`时有效	`False`
`save_to_img()`	将结果保存为图像格式的文件	`save_path`	`str`	保存的文件路径，支持目录或文件路径	无
`return_word_box`	是否返回每个文字的位置坐标	`bool\|None`	bool：`True` 或者 `False`； None：如果设置为`None`, 将默认使用产线初始化的该参数值，初始化为`False`；	`None`

调用print() 方法会将结果打印到终端，打印到终端的内容解释如下：
- input_path: (str) 待预测图像的输入路径
- page_index: (Union[int, None]) 如果输入是PDF文件，则表示当前是PDF的第几页，否则为 None
- model_settings: (Dict[str, bool]) 配置产线所需的模型参数
  - use_doc_preprocessor: (bool) 控制是否启用文档预处理子产线
  - use_textline_orientation: (bool) 控制是否启用文本行方向分类功能
- doc_preprocessor_res: (Dict[str, Union[str, Dict[str, bool], int]]) 文档预处理子产线的输出结果。仅当use_doc_preprocessor=True时存在
  - input_path: (Union[str, None]) 图像预处理子产线接受的图像路径，当输入为numpy.ndarray时，保存为None
  - model_settings: (Dict) 预处理子产线的模型配置参数
    - use_doc_orientation_classify: (bool) 控制是否启用文档方向分类
    - use_doc_unwarping: (bool) 控制是否启用文档扭曲矫正
  - angle: (int) 文档方向分类的预测结果。启用时取值为[0,1,2,3]，分别对应[0°,90°,180°,270°]；未启用时为-1
- dt_polys: (List[numpy.ndarray]) 文本检测的多边形框列表。每个检测框由4个顶点坐标构成的numpy数组表示，数组shape为(4, 2)，数据类型为int16
- dt_scores: (List[float]) 文本检测框的置信度列表
- text_det_params: (Dict[str, Dict[str, int, float]]) 文本检测模块的配置参数
  - limit_side_len: (int) 图像预处理时的边长限制值
  - limit_type: (str) 边长限制的处理方式
  - thresh: (float) 文本像素分类的置信度阈值
  - box_thresh: (float) 文本检测框的置信度阈值
  - unclip_ratio: (float) 文本检测框的膨胀系数
  - text_type: (str) 文本检测的类型，当前固定为"general"
- textline_orientation_angles: (List[int]) 文本行方向分类的预测结果。启用时返回实际角度值（如[0,0,1]），未启用时返回[-1,-1,-1]
- text_rec_score_thresh: (float) 文本识别结果的过滤阈值
- rec_texts: (List[str]) 文本识别结果列表，仅包含置信度超过text_rec_score_thresh的文本
- rec_scores: (List[float]) 文本识别的置信度列表，已按text_rec_score_thresh过滤
- rec_polys: (List[numpy.ndarray]) 经过置信度过滤的文本检测框列表，格式同dt_polys
- rec_boxes: (numpy.ndarray) 检测框的矩形边界框数组，shape为(n, 4)，dtype为int16。每一行表示一个矩形框的[x_min, y_min, x_max, y_max]坐标，其中(x_min, y_min)为左上角坐标，(x_max, y_max)为右下角坐标
- text_word: (List[str]) 当 return_word_box 设置为 True 时，返回每个识别文字的文本列表。
- text_word_boxes: (List[numpy.ndarray]) 当 return_word_box 设置为 True 时，返回每个识别文字的边界框坐标列表。
调用save_to_json() 方法会将上述内容保存到指定的save_path中，如果指定为目录，则保存的路径为save_path/{your_img_basename}_res.json，如果指定为文件，则直接保存到该文件中。由于json文件不支持保存numpy数组，因此会将其中的numpy.array类型转换为列表形式。
调用save_to_img() 方法会将可视化结果保存到指定的save_path中，如果指定为目录，则保存的路径为save_path/{your_img_basename}_ocr_res_img.{your_img_extension}，如果指定为文件，则直接保存到该文件中。(产线通常包含较多结果图片，不建议直接指定为具体的文件路径，否则多张图会被覆盖，仅保留最后一张图)
此外，也支持通过属性获取带结果的可视化图像和预测结果，具体如下：

属性	属性说明
`json`	获取预测的 `json` 格式的结果
`img`	获取格式为 `dict` 的可视化图像

json 属性获取的预测结果为dict类型的数据，相关内容与调用 save_to_json() 方法保存的内容一致。
img 属性返回的预测结果是一个字典类型的数据。其中，键分别为 ocr_res_img 和 preprocessed_img，对应的值是两个 Image.Image 对象：一个用于显示 OCR 结果的可视化图像，另一个用于展示图像预处理的可视化图像。如果没有使用图像预处理子模块，则字典中只包含 ocr_res_img。

此外，您可以获取OCR产线配置文件，并加载配置文件进行预测。可执行如下命令将结果保存在 my_path 中：

paddlex --get_pipeline_config OCR --save_path ./my_path

若您获取了配置文件，即可对OCR产线各项配置进行自定义，只需要修改 create_pipeline 方法中的 pipeline 参数值为产线配置文件路径即可。示例如下：

from paddlex import create_pipeline

pipeline = create_pipeline(pipeline="./my_path/OCR.yaml")

output = pipeline.predict(
    input="./general_ocr_002.png",
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
)
for res in output:
    res.print()
    res.save_to_img("./output/")
    res.save_to_json("./output/")

注：配置文件中的参数为产线初始化参数，如果希望更改通用OCR产线初始化参数，可以直接修改配置文件中的参数，并加载配置文件进行预测。同时，CLI 预测也支持传入配置文件，--pipeline 指定配置文件的路径即可。

3. 开发集成/部署¶

如果通用 OCR 产线可以达到您对产线推理速度和精度的要求，您可以直接进行开发集成/部署。

若您需要将通用 OCR 产线直接应用在您的Python项目中，可以参考 2.2.2 Python脚本方式中的示例代码。

此外，PaddleX 也提供了其他三种部署方式，详细说明如下：

🚀 高性能推理：在实际生产环境中，许多应用对部署策略的性能指标（尤其是响应速度）有着较严苛的标准，以确保系统的高效运行与用户体验的流畅性。为此，PaddleX 提供高性能推理插件，旨在对模型推理及前后处理进行深度性能优化，实现端到端流程的显著提速，详细的高性能推理流程请参考PaddleX高性能推理指南。

☁️ 服务化部署：服务化部署是实际生产环境中常见的一种部署形式。通过将推理功能封装为服务，客户端可以通过网络请求来访问这些服务，以获取推理结果。PaddleX 支持多种产线服务化部署方案，详细的产线服务化部署流程请参考PaddleX服务化部署指南。

以下是基础服务化部署的API参考与多语言服务调用示例：

API参考

对于服务提供的主要操作：

HTTP请求方法为POST。
请求体和响应体均为JSON数据（JSON对象）。
当请求处理成功时，响应状态码为200，响应体的属性如下：

名称	类型	含义
`logId`	`string`	请求的UUID。
`errorCode`	`integer`	错误码。固定为`0`。
`errorMsg`	`string`	错误说明。固定为`"Success"`。
`result`	`object`	操作结果。

当请求处理未成功时，响应体的属性如下：

名称	类型	含义
`logId`	`string`	请求的UUID。
`errorCode`	`integer`	错误码。与响应状态码相同。
`errorMsg`	`string`	错误说明。

服务提供的主要操作如下：

infer

获取图像OCR结果。

POST /ocr

请求体的属性如下：

名称	类型	含义	是否必填
`file`	`string`	服务器可访问的图像文件（含 TIFF，多页时按页处理）或 PDF 文件的 URL，或上述类型文件内容的 Base64 编码结果。默认对于超过 10 页的 PDF 或多页 TIFF，仅处理前 10 页。要解除页数限制，请在产线配置文件中添加以下配置： `Serving: extra: max_num_input_imgs: null`	是
`fileType`	`integer` \| `null`	文件类型。`0` 表示 PDF 文件，`1` 表示图像文件（含 TIFF）。若请求体无此属性，则将根据URL推断文件类型。	否
`useDocOrientationClassify`	`boolean` \| `null`	请参阅产线对象中 `predict` 方法的 `use_doc_orientation_classify` 参数相关说明。	否
`useDocUnwarping`	`boolean` \| `null`	请参阅产线对象中 `predict` 方法的 `use_doc_unwarping` 参数相关说明。	否
`useTextlineOrientation`	`boolean` \| `null`	请参阅产线对象中 `predict` 方法的 `use_textline_orientation` 参数相关说明。	否
`textDetLimitSideLen`	`integer` \| `null`	请参阅产线对象中 `predict` 方法的 `text_det_limit_side_len` 参数相关说明。	否
`textDetLimitType`	`string` \| `null`	请参阅产线对象中 `predict` 方法的 `text_det_limit_type` 参数相关说明。	否
`textDetThresh`	`number` \| `null`	请参阅产线对象中 `predict` 方法的 `text_det_thresh` 参数相关说明。	否
`textDetBoxThresh`	`number` \| `null`	请参阅产线对象中 `predict` 方法的 `text_det_box_thresh` 参数相关说明。	否
`textDetUnclipRatio`	`number` \| `null`	请参阅产线对象中 `predict` 方法的 `text_det_unclip_ratio` 参数相关说明。	否
`textRecScoreThresh`	`number` \| `null`	请参阅产线对象中 `predict` 方法的 `text_rec_score_thresh` 参数相关说明。	否
`returnWordBox`	`boolean` \| `null`	请参阅产线对象中 `predict` 方法的 `return_word_box` 参数相关说明。	否
`visualize`	`boolean` \| `null`	是否返回可视化结果图以及处理过程中的中间图像等。传入 `true`：返回图像。传入 `false`：不返回图像。若请求体中未提供该参数或传入 `null`：遵循产线配置文件`Serving.visualize` 的设置。例如，在产线配置文件中添加如下字段： `Serving: visualize: False` 将默认不返回图像，通过请求体中的`visualize`参数可以覆盖默认行为。如果请求体和配置文件中均未设置（或请求体传入`null`、配置文件中未设置），则默认返回图像。	否

请求处理成功时，响应体的result具有如下属性：

名称	类型	含义
`ocrResults`	`object`	OCR结果。数组长度为1（对于图像输入）或实际处理的文档页数（对于PDF输入）。对于PDF输入，数组中的每个元素依次表示PDF文件中实际处理的每一页的结果。
`dataInfo`	`object`	输入数据信息。

下表中涉及图像的字段（如 ocrImage、docPreprocessingImage、inputImage）默认以 Base64 字符串内联返回；当服务端开启 URL 返回模式时，相应字段的值变为预签名 URL，字段类型保持不变。配置方式参见服务化部署「以 URL 形式返回二进制内容」一节。

ocrResults中的每个元素为一个object，具有如下属性：

名称	类型	含义
`prunedResult`	`object`	产线对象的 `predict` 方法生成结果的 JSON 表示中 `res` 字段的简化版本，其中去除了 `input_path` 和 `page_index` 字段。
`ocrImage`	`string` \| `null`	OCR结果图，其中标注检测到的文本位置。图像为JPEG格式，使用Base64编码；启用 URL 返回模式时为预签名 URL。
`docPreprocessingImage`	`string` \| `null`	可视化结果图像。图像为JPEG格式，使用Base64编码；启用 URL 返回模式时为预签名 URL。
`inputImage`	`string` \| `null`	输入图像。图像为JPEG格式，使用Base64编码；启用 URL 返回模式时为预签名 URL。

多语言调用服务示例

Python

import base64
import requests

API_URL = "http://localhost:8080/ocr"
file_path = "./demo.jpg"

with open(file_path, "rb") as file:
    file_bytes = file.read()
    file_data = base64.b64encode(file_bytes).decode("ascii")

payload = {"file": file_data, "fileType": 1}

response = requests.post(API_URL, json=payload)

assert response.status_code == 200
result = response.json()["result"]
for i, res in enumerate(result["ocrResults"]):
    print(res["prunedResult"])
    ocr_img_path = f"ocr_{i}.jpg"
    with open(ocr_img_path, "wb") as f:
        f.write(base64.b64decode(res["ocrImage"]))
    print(f"Output image saved at {ocr_img_path}")

C++

#include <iostream>
#include <fstream>
#include <vector>
#include <string>
#include "cpp-httplib/httplib.h" // https://github.com/Huiyicc/cpp-httplib
#include "nlohmann/json.hpp" // https://github.com/nlohmann/json
#include "base64.hpp" // https://github.com/tobiaslocker/base64

int main() {
    httplib::Client client("localhost", 8080);
    const std::string filePath = "./demo.jpg";

    std::ifstream file(filePath, std::ios::binary | std::ios::ate);
    if (!file) {
        std::cerr << "Error opening file." << std::endl;
        return 1;
    }

    std::streamsize size = file.tellg();
    file.seekg(0, std::ios::beg);
    std::vector buffer(size);

    if (!file.read(buffer.data(), size)) {
        std::cerr << "Error reading file." << std::endl;
        return 1;
    }

    std::string bufferStr(buffer.data(), static_cast(size));
    std::string encodedFile = base64::to_base64(bufferStr);


    nlohmann::json jsonObj;
    jsonObj["file"] = encodedFile;
    jsonObj["fileType"] = 1;

    auto response = client.Post("/ocr", jsonObj.dump(), "application/json");

    if (response && response->status == 200) {
        nlohmann::json jsonResponse = nlohmann::json::parse(response->body);
        auto result = jsonResponse["result"];

        if (!result.is_object() || !result["ocrResults"].is_array()) {
            std::cerr << "Unexpected response structure." << std::endl;
            return 1;
        }

        for (size_t i = 0; i < result["ocrResults"].size(); ++i) {
            auto ocrResult = result["ocrResults"][i];
            std::cout << ocrResult["prunedResult"] << std::endl;

            std::string ocrImgPath = "ocr_" + std::to_string(i) + ".jpg";
            std::string encodedImage = ocrResult["ocrImage"];
            std::string decodedImage = base64::from_base64(encodedImage);

            std::ofstream outputImage(ocrImgPath, std::ios::binary);
            if (outputImage.is_open()) {
                outputImage.write(decodedImage.c_str(), static_cast(decodedImage.size()));
                outputImage.close();
                std::cout << "Output image saved at " << ocrImgPath << std::endl;
            } else {
                std::cerr << "Unable to open file for writing: " << ocrImgPath << std::endl;
            }
        }
    } else {
        std::cerr << "Failed to send HTTP request." << std::endl;
        if (response) {
            std::cerr << "HTTP status code: " << response->status << std::endl;
            std::cerr << "Response body: " << response->body << std::endl;
        }
        return 1;
    }

    return 0;
}

Java

import okhttp3.*;
import com.fasterxml.jackson.databind.ObjectMapper;
import com.fasterxml.jackson.databind.JsonNode;
import com.fasterxml.jackson.databind.node.ObjectNode;

import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.util.Base64;

public class Main {
    public static void main(String[] args) throws IOException {
        String API_URL = "http://localhost:8080/ocr";
        String imagePath = "./demo.jpg";

        File file = new File(imagePath);
        byte[] fileContent = java.nio.file.Files.readAllBytes(file.toPath());
        String base64Image = Base64.getEncoder().encodeToString(fileContent);

        ObjectMapper objectMapper = new ObjectMapper();
        ObjectNode payload = objectMapper.createObjectNode();
        payload.put("file", base64Image);
        payload.put("fileType", 1);

        OkHttpClient client = new OkHttpClient();
        MediaType JSON = MediaType.get("application/json; charset=utf-8");
    RequestBody body = RequestBody.create(JSON, payload.toString());

        Request request = new Request.Builder()
                .url(API_URL)
                .post(body)
                .build();

        try (Response response = client.newCall(request).execute()) {
            if (response.isSuccessful()) {
                String responseBody = response.body().string();
                JsonNode root = objectMapper.readTree(responseBody);
                JsonNode result = root.get("result");

                JsonNode ocrResults = result.get("ocrResults");
                for (int i = 0; i < ocrResults.size(); i++) {
                    JsonNode item = ocrResults.get(i);

                    JsonNode prunedResult = item.get("prunedResult");
                    System.out.println("Pruned Result [" + i + "]: " + prunedResult.toString());

                    String ocrImageBase64 = item.get("ocrImage").asText();
                    byte[] ocrImageBytes = Base64.getDecoder().decode(ocrImageBase64);
                    String ocrImgPath = "ocr_result_" + i + ".jpg";
                    try (FileOutputStream fos = new FileOutputStream(ocrImgPath)) {
                        fos.write(ocrImageBytes);
                        System.out.println("Saved OCR image to: " + ocrImgPath);
                    }
                }
            } else {
                System.err.println("Request failed with HTTP code: " + response.code());
            }
        }
    }
}

Go

package main

import (
    "bytes"
    "encoding/base64"
    "encoding/json"
    "fmt"
    "io/ioutil"
    "net/http"
)

func main() {
    API_URL := "http://localhost:8080/ocr"
    filePath := "./demo.jpg"

    fileBytes, err := ioutil.ReadFile(filePath)
    if err != nil {
        fmt.Printf("Error reading file: %v\n", err)
        return
    }
    fileData := base64.StdEncoding.EncodeToString(fileBytes)

    payload := map[string]interface{}{
        "file":     fileData,
        "fileType": 1,
    }
    payloadBytes, err := json.Marshal(payload)
    if err != nil {
        fmt.Printf("Error marshaling payload: %v\n", err)
        return
    }

    client := &http.Client{}
    req, err := http.NewRequest("POST", API_URL, bytes.NewBuffer(payloadBytes))
    if err != nil {
        fmt.Printf("Error creating request: %v\n", err)
        return
    }
    req.Header.Set("Content-Type", "application/json")

    res, err := client.Do(req)
    if err != nil {
        fmt.Printf("Error sending request: %v\n", err)
        return
    }
    defer res.Body.Close()

    if res.StatusCode != http.StatusOK {
        fmt.Printf("Unexpected status code: %d\n", res.StatusCode)
        return
    }

    body, err := ioutil.ReadAll(res.Body)
    if err != nil {
        fmt.Printf("Error reading response body: %v\n", err)
        return
    }

    type OcrResult struct {
        PrunedResult map[string]interface{} `json:"prunedResult"`
        OcrImage     *string                `json:"ocrImage"`
    }

    type Response struct {
        Result struct {
            OcrResults []OcrResult `json:"ocrResults"`
            DataInfo   interface{} `json:"dataInfo"`
        } `json:"result"`
    }

    var respData Response
    if err := json.Unmarshal(body, &respData); err != nil {
        fmt.Printf("Error unmarshaling response: %v\n", err)
        return
    }

    for i, res := range respData.Result.OcrResults {

        if res.OcrImage != nil {
            imgBytes, err := base64.StdEncoding.DecodeString(*res.OcrImage)
            if err != nil {
                fmt.Printf("Error decoding image %d: %v\n", i, err)
                continue
            }

            filename := fmt.Sprintf("ocr_%d.jpg", i)
            if err := ioutil.WriteFile(filename, imgBytes, 0644); err != nil {
                fmt.Printf("Error saving image %s: %v\n", filename, err)
                continue
            }
            fmt.Printf("Output image saved at %s\n", filename)
        }
    }
}

C#

using System;
using System.IO;
using System.Net.Http;
using System.Text;
using System.Threading.Tasks;
using Newtonsoft.Json.Linq;

class Program
{
    static readonly string API_URL = "http://localhost:8080/ocr";
    static readonly string inputFilePath = "./demo.jpg";

    static async Task Main(string[] args)
    {
        var httpClient = new HttpClient();

        byte[] fileBytes = File.ReadAllBytes(inputFilePath);
        string fileData = Convert.ToBase64String(fileBytes);

        var payload = new JObject
        {
            { "file", fileData },
            { "fileType", 1 }
        };
        var content = new StringContent(payload.ToString(), Encoding.UTF8, "application/json");

        HttpResponseMessage response = await httpClient.PostAsync(API_URL, content);
        response.EnsureSuccessStatusCode();

        string responseBody = await response.Content.ReadAsStringAsync();
        JObject jsonResponse = JObject.Parse(responseBody);

        JArray ocrResults = (JArray)jsonResponse["result"]["ocrResults"];
        for (int i = 0; i < ocrResults.Count; i++)
        {
            var res = ocrResults[i];
            Console.WriteLine($"[{i}] prunedResult:\n{res["prunedResult"]}");

            string base64Image = res["ocrImage"]?.ToString();
            if (!string.IsNullOrEmpty(base64Image))
            {
                string outputPath = $"ocr_{i}.jpg";
                byte[] imageBytes = Convert.FromBase64String(base64Image);
                File.WriteAllBytes(outputPath, imageBytes);
                Console.WriteLine($"OCR image saved to {outputPath}");
            }
            else
            {
                Console.WriteLine($"OCR image at index {i} is null.");
            }
        }
    }
}

Node.js

const axios = require('axios');
const fs = require('fs');
const path = require('path');

const API_URL = 'http://localhost:8080/layout-parsing';
const imagePath = './demo.jpg';
const fileType = 1;

function encodeImageToBase64(filePath) {
  const bitmap = fs.readFileSync(filePath);
  return Buffer.from(bitmap).toString('base64');
}

const payload = {
  file: encodeImageToBase64(imagePath),
  fileType: fileType
};

axios.post(API_URL, payload)
  .then(response => {
    const results = response.data.result.layoutParsingResults;
    results.forEach((res, index) => {
      console.log(`\n[${index}] prunedResult:`);
      console.log(res.prunedResult);

      const outputImages = res.outputImages;
      if (outputImages) {
        Object.entries(outputImages).forEach(([imgName, base64Img]) => {
          const imgPath = `${imgName}_${index}.jpg`;
          fs.writeFileSync(imgPath, Buffer.from(base64Img, 'base64'));
          console.log(`Output image saved at ${imgPath}`);
        });
      } else {
        console.log(`[${index}] No outputImages.`);
      }
    });
  })
  .catch(error => {
    console.error('Error during API request:', error.message || error);
  });

PHP

<?php

$API_URL = "http://localhost:8080/ocr";
$image_path = "./demo.jpg";

$image_data = base64_encode(file_get_contents($image_path));
$payload = array(
    "file" => $image_data,
    "fileType" => 1
);

$ch = curl_init($API_URL);
curl_setopt($ch, CURLOPT_POST, true);
curl_setopt($ch, CURLOPT_POSTFIELDS, json_encode($payload));
curl_setopt($ch, CURLOPT_HTTPHEADER, array('Content-Type: application/json'));
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$response = curl_exec($ch);
curl_close($ch);

$result = json_decode($response, true)["result"]["ocrResults"];

foreach ($result as $i => $item) {
    echo "[$i] prunedResult:\n";
    print_r($item["prunedResult"]);

    if (!empty($item["ocrImage"])) {
        $output_img_path = "ocr_{$i}.jpg";
        file_put_contents($output_img_path, base64_decode($item["ocrImage"]));
        echo "OCR image saved at $output_img_path\n";
    } else {
        echo "No ocrImage found for item $i\n";
    }
}
?>

📱 端侧部署：端侧部署是一种将计算和数据处理功能放在用户设备本身上的方式，设备可以直接处理数据，而不需要依赖远程的服务器。PaddleX 支持将模型部署在 Android 等端侧设备上，详细的端侧部署流程请参考PaddleX端侧部署指南。您可以根据需要选择合适的方式部署模型产线，进而进行后续的 AI 应用集成。

4. 二次开发¶

如果通用 OCR 产线提供的默认模型权重在您的场景中，精度或速度不满意，您可以尝试利用您自己拥有的特定领域或应用场景的数据对现有模型进行进一步的微调，以提升通用 OCR 产线的在您的场景中的识别效果。

4.1 模型微调¶

由于通用OCR产线包含若干模块，模型产线的效果如果不及预期，可能来自于其中任何一个模块。您可以对识别效果差的图片进行分析，进而确定是哪个模块存在问题，并参考以下表格中对应的微调教程链接进行模型微调。

情形	微调模块	微调参考链接
文本存在漏检	文本检测模块	链接
文本内容都不准	文本识别模块	链接
垂直或者旋转文本行矫正不准	文本行方向分类模块	链接
整图旋转矫正不准	文档图像方向分类模块	链接
图像扭曲矫正不准	文本图像矫正模块	暂不支持微调

4.2 模型应用¶

当您使用私有数据集完成微调训练后，可获得本地模型权重文件。

若您需要使用微调后的模型权重，只需对产线配置文件做修改，将微调后模型权重的本地路径替换至产线配置文件中的对应位置即可：

SubPipelines:
  DocPreprocessor:
    ...
    SubModules:
      DocOrientationClassify:
        module_name: doc_text_orientation
        model_name: PP-LCNet_x1_0_doc_ori
        model_dir: null # 替换为微调后的文档图像方向分类模型权重路径
    ...

SubModules:
  TextDetection:
    module_name: text_detection
    model_name: PP-OCRv6_medium_det
    model_dir: null # 替换为微调后的文本检测模型权重路径
    ...
  TextLineOrientation:
    module_name: textline_orientation
    model_name: PP-LCNet_x0_25_textline_ori
    model_dir: null  # 替换为微调后的文本行方向分类模型权重路径
    batch_size: 1
  TextRecognition:
    module_name: text_recognition
    model_name: PP-OCRv6_medium_rec
    model_dir: null  # 替换为微调后的文本识别模型权重路径
    batch_size: 1

随后，参考2.2 本地体验中的命令行方式或Python脚本方式，加载修改后的产线配置文件即可。

5. 多硬件支持¶

PaddleX 支持英伟达 GPU、昆仑芯 XPU、昇腾 NPU和寒武纪 MLU 等多种主流硬件设备，仅需修改 --device参数即可完成不同硬件之间的无缝切换。

例如，您使用昇腾 NPU 进行 OCR 产线的推理，使用的 CLI 命令为：

paddlex --pipeline OCR \
        --input general_ocr_002.png \
        --use_doc_orientation_classify False \
        --use_doc_unwarping False \
        --use_textline_orientation False \
        --save_path ./output \
        --device npu:0

当然，您也可以在 Python 脚本中 create_pipeline() 时或者 predict() 时指定硬件设备。

若您想在更多种类的硬件上使用通用OCR产线，请参考PaddleX多硬件使用指南。