一、PP-OCRv5简介¶
PP-OCRv5 是PP-OCR新一代文字识别解决方案,该方案聚焦于多场景、多文字类型的文字识别。在文字类型方面,PP-OCRv5支持简体中文、中文拼音、繁体中文、英文、日文5大主流文字类型,在场景方面,PP-OCRv5升级了中英复杂手写体、竖排文本、生僻字等多种挑战性场景的识别能力。在内部多场景复杂评估集上,PP-OCRv5较PP-OCRv4端到端提升13个百分点。

二、关键指标¶
1. 文本检测指标¶
模型 | 手写中文 | 手写英文 | 印刷中文 | 印刷英文 | 繁体中文 | 古籍文本 | 日文 | 通用场景 | 拼音 | 旋转 | 扭曲 | 艺术字 | 平均 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PP-OCRv5_server_det | 0.803 | 0.841 | 0.945 | 0.917 | 0.815 | 0.676 | 0.772 | 0.797 | 0.671 | 0.8 | 0.876 | 0.673 | 0.827 |
PP-OCRv4_server_det | 0.706 | 0.249 | 0.888 | 0.690 | 0.759 | 0.473 | 0.685 | 0.715 | 0.542 | 0.366 | 0.775 | 0.583 | 0.662 |
PP-OCRv5_mobile_det | 0.744 | 0.777 | 0.905 | 0.910 | 0.823 | 0.581 | 0.727 | 0.721 | 0.575 | 0.647 | 0.827 | 0.525 | 0.770 |
PP-OCRv4_mobile_det | 0.583 | 0.369 | 0.872 | 0.773 | 0.663 | 0.231 | 0.634 | 0.710 | 0.430 | 0.299 | 0.715 | 0.549 | 0.624 |
对比PP-OCRv4,PP-OCRv5在所有检测场景下均有明显提升,尤其在手写、古籍、日文检测能力上表现更优。
2. 文本识别指标¶

评估集类别 | 手写中文 | 手写英文 | 印刷中文 | 印刷英文 | 繁体中文 | 古籍文本 | 日文 | 易混淆字符 | 通用场景 | 拼音 | 竖直文本 | 艺术字 | 加权平均 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PP-OCRv5_server_rec | 0.5807 | 0.5806 | 0.9013 | 0.8679 | 0.7472 | 0.6039 | 0.7372 | 0.5946 | 0.8384 | 0.7435 | 0.9314 | 0.6397 | 0.8401 |
PP-OCRv4_server_rec | 0.3626 | 0.2661 | 0.8486 | 0.6677 | 0.4097 | 0.3080 | 0.4623 | 0.5028 | 0.8362 | 0.2694 | 0.5455 | 0.5892 | 0.5735 |
PP-OCRv5_mobile_rec | 0.4166 | 0.4944 | 0.8605 | 0.8753 | 0.7199 | 0.5786 | 0.7577 | 0.5570 | 0.7703 | 0.7248 | 0.8089 | 0.5398 | 0.8015 |
PP-OCRv4_mobile_rec | 0.2980 | 0.2550 | 0.8398 | 0.6598 | 0.3218 | 0.2593 | 0.4724 | 0.4599 | 0.8106 | 0.2593 | 0.5924 | 0.5555 | 0.5301 |
单模型即可覆盖多语言和多类型文本,识别精度大幅领先前代产品和主流开源方案。
三、PP-OCRv5 Demo示例¶

四、推理性能参考数据¶
测试环境:
- NVIDIA Tesla V100
- Intel Xeon Gold 6271C
- PaddlePaddle 3.0.0
在 200 张图像(包括通用图像与文档图像)上测试。测试时从磁盘读取图像,因此读图时间及其他额外开销也被包含在总耗时内。如果将图像提前载入到内存,可进一步减少平均每图约 25 ms 的时间开销。
如果不特别说明,则:
- 使用 PP-OCRv4_mobile_det 和 PP-OCRv4_mobile_rec 模型。
- 不使用文档图像方向分类、文本图像矫正、文本行方向分类。
- 将
text_det_limit_type
设置为"min"
、text_det_limit_side_len
设置为732
。
1. PP-OCRv5 与 PP-OCRv4 推理性能对比¶
配置 | 说明 |
---|---|
v5_mobile | 使用 PP-OCRv5_mobile_det 和 PP-OCRv5_mobile_rec 模型。 |
v4_mobile | 使用 PP-OCRv4_mobile_det 和 PP-OCRv4_mobile_rec 模型。 |
v5_server | 使用 PP-OCRv5_server_det 和 PP-OCRv5_server_rec 模型。 |
v4_server | 使用 PP-OCRv4_server_det 和 PP-OCRv4_server_rec 模型。 |
GPU,不使用高性能推理:
配置 | 平均每图耗时(s) | 平均每秒预测字符数量 | 平均 CPU 利用率(%) | 峰值 RAM 用量(MB) | 平均 RAM 用量(MB) | 峰值 VRAM 用量(MB) | 平均 VRAM 用量(MB) |
---|---|---|---|---|---|---|---|
v5_mobile | 0.56 | 1162 | 106.02 | 1576.43 | 1420.83 | 18.95 | 4342.00 |
v4_mobile | 0.27 | 2246 | 111.20 | 1392.22 | 1318.76 | 28.90 | 1304.00 |
v5_server | 0.70 | 929 | 105.31 | 1634.85 | 1428.55 | 36.21 | 5402.00 |
v4_server | 0.44 | 1418 | 106.96 | 1455.34 | 1346.95 | 58.82 | 6760.00 |
GPU,使用高性能推理:
配置 | 平均每图耗时(s) | 平均每秒预测字符数量 | 平均 CPU 利用率(%) | 峰值 RAM 用量(MB) | 平均 RAM 用量(MB) | 峰值 VRAM 用量(MB) | 平均 VRAM 用量(MB) |
---|---|---|---|---|---|---|---|
v5_mobile | 0.50 | 1301 | 106.50 | 1338.12 | 1155.86 | 11.97 | 4112.00 |
v4_mobile | 0.21 | 2887 | 114.09 | 1113.27 | 1054.46 | 15.22 | 2072.00 |
v5_server | 0.60 | 1084 | 105.73 | 1980.73 | 1776.20 | 22.10 | 12150.00 |
v4_server | 0.36 | 1687 | 104.15 | 1186.42 | 1065.67 | 38.12 | 13058.00 |
CPU,不使用高性能推理:
配置 | 平均每图耗时(s) | 平均每秒预测字符数量 | 平均 CPU 利用率(%) | 峰值 RAM 用量(MB) | 平均 RAM 用量(MB) |
---|---|---|---|---|---|
v5_mobile | 1.43 | 455 | 798.93 | 11695.40 | 6829.09 |
v4_mobile | 1.09 | 556 | 813.16 | 11996.30 | 6834.25 |
v5_server | 3.79 | 172 | 799.24 | 50216.00 | 27902.40 |
v4_server | 4.22 | 148 | 803.74 | 51428.70 | 28593.60 |
CPU,使用高性能推理:
配置 | 平均每图耗时(s) | 平均每秒预测字符数量 | 平均 CPU 利用率(%) | 峰值 RAM 用量(MB) | 平均 RAM 用量(MB) |
---|---|---|---|---|---|
v5_mobile | 1.14 | 571 | 339.68 | 3245.17 | 2560.55 |
v4_mobile | 0.68 | 892 | 443.00 | 3057.38 | 2329.44 |
v5_server | 3.56 | 183 | 797.03 | 45664.70 | 26905.90 |
v4_server | 4.22 | 148 | 803.74 | 51428.70 | 28593.60 |
说明:PP-OCRv5 的识别模型使用了更大的字典,需要更长的推理时间,导致 PP-OCRv5 的推理速度慢于 PP-OCRv4。
2. 使用辅助功能对 PP-OCRv5 推理性能的影响¶
配置 | 说明 |
---|---|
base | 不使用文档图像方向分类、文本图像矫正、文本行方向分类。 |
with_textline | 使用文本行方向分类,不使用文档图像方向分类、文本图像矫正。 |
with_all | 使用文档图像方向分类、文本图像矫正、文本行方向分类。 |
GPU,不使用高性能推理:
配置 | 平均每图耗时(s) | 平均每秒预测字符数量 | 平均 CPU 利用率(%) | 峰值 RAM 用量(MB) | 平均 RAM 用量(MB) | 峰值 VRAM 用量(MB) | 平均 VRAM 用量(MB) |
---|---|---|---|---|---|---|---|
base | 0.56 | 1162 | 106.02 | 1576.43 | 1420.83 | 18.95 | 4342.00 |
with_textline | 0.59 | 1104 | 105.58 | 1765.64 | 1478.53 | 19.48 | 4350.00 |
with_all | 1.02 | 600 | 104.92 | 1924.23 | 1628.50 | 10.96 | 2632.00 |
CPU,不使用高性能推理:
配置 | 平均每图耗时(s) | 平均每秒预测字符数量 | 平均 CPU 利用率(%) | 峰值 RAM 用量(MB) | 平均 RAM 用量(MB) |
---|---|---|---|---|---|
base | 1.43 | 455 | 798.93 | 11695.40 | 6829.09 |
with_textline | 1.50 | 434 | 799.47 | 12007.20 | 6882.22 |
with_all | 1.93 | 316 | 646.49 | 11759.60 | 6940.54 |
说明:文本图像矫正等辅助功能会对端到端推理精度造成影响,因此并不一定使用的辅助功能越多、资源用量越大。
3. 文本检测模块输入缩放尺寸策略对 PP-OCRv5 推理性能的影响¶
配置 | 说明 |
---|---|
mobile_min_1280 | 使用 PP-OCRv5_mobile_det 和 PP-OCRv5_mobile_rec 模型,将 text_det_limit_type 设置为 "min" 、text_det_limit_side_len 设置为 1280 。 |
mobile_min_736 | 使用 PP-OCRv5_mobile_det 和 PP-OCRv5_mobile_rec 模型,将 text_det_limit_type 设置为 "min" 、text_det_limit_side_len 设置为 1280 。 |
mobile_max_960 | 使用 PP-OCRv5_mobile_det 和 PP-OCRv5_mobile_rec 模型,将 text_det_limit_type 设置为 "max" 、text_det_limit_side_len 设置为 960 。 |
mobile_max_640 | 使用 PP-OCRv5_mobile_det 和 PP-OCRv5_mobile_rec 模型,将 text_det_limit_type 设置为 "max" 、text_det_limit_side_len 设置为 640 。 |
server_min_1280 | 使用 PP-OCRv5_server_det 和 PP-OCRv5_server_rec 模型,将 text_det_limit_type 设置为 "min" 、text_det_limit_side_len 设置为 1280 。 |
server_min_736 | 使用 PP-OCRv5_server_det 和 PP-OCRv5_server_rec 模型,将 text_det_limit_type 设置为 "min" 、text_det_limit_side_len 设置为 1280 。 |
server_max_960 | 使用 PP-OCRv5_server_det 和 PP-OCRv5_server_rec 模型,将 text_det_limit_type 设置为 "max" 、text_det_limit_side_len 设置为 960 。 |
server_max_640 | 使用 PP-OCRv5_server_det 和 PP-OCRv5_server_rec 模型,将 text_det_limit_type 设置为 "max" 、text_det_limit_side_len 设置为 640 。 |
GPU,不使用高性能推理:
配置 | 平均每图耗时(s) | 平均每秒预测字符数量 | 平均 CPU 利用率(%) | 峰值 RAM 用量(MB) | 平均 RAM 用量(MB) | 峰值 VRAM 用量(MB) | 平均 VRAM 用量(MB) |
---|---|---|---|---|---|---|---|
mobile_min_1280 | 0.61 | 1071 | 109.12 | 1663.71 | 1439.72 | 19.27 | 4202.00 |
mobile_min_736 | 0.56 | 1162 | 106.02 | 1576.43 | 1420.83 | 18.95 | 4342.00 |
mobile_max_960 | 0.48 | 1313 | 103.49 | 1587.25 | 1395.48 | 19.37 | 2642.00 |
mobile_max_640 | 0.42 | 1436 | 103.07 | 1651.14 | 1422.62 | 18.95 | 2530.00 |
server_min_1280 | 0.82 | 795 | 107.17 | 1678.16 | 1428.94 | 40.43 | 10368.00 |
server_min_736 | 0.70 | 929 | 105.31 | 1634.85 | 1428.55 | 36.21 | 5402.00 |
server_max_960 | 0.59 | 1073 | 103.03 | 1590.19 | 1383.62 | 33.42 | 2928.00 |
server_max_640 | 0.54 | 1099 | 102.63 | 1602.09 | 1416.49 | 30.77 | 3152.00 |
CPU,不使用高性能推理:
配置 | 平均每图耗时(s) | 平均每秒预测字符数量 | 平均 CPU 利用率(%) | 峰值 RAM 用量(MB) | 平均 RAM 用量(MB) |
---|---|---|---|---|---|
mobile_min_1280 | 1.64 | 398 | 799.45 | 12344.10 | 7100.60 |
mobile_min_736 | 1.43 | 455 | 798.93 | 11695.40 | 6829.09 |
mobile_max_960 | 1.21 | 521 | 800.13 | 11099.10 | 6369.49 |
mobile_max_640 | 1.01 | 597 | 802.52 | 9585.48 | 5573.52 |
server_min_1280 | 4.48 | 145 | 800.49 | 50683.10 | 28273.30 |
server_min_736 | 3.79 | 172 | 799.24 | 50216.00 | 27902.40 |
server_max_960 | 2.67 | 237 | 797.63 | 49362.50 | 26075.60 |
server_max_640 | 2.36 | 251 | 795.18 | 45656.10 | 24900.80 |
五、部署与二次开发¶
- 多系统支持:兼容Windows、Linux、Mac等主流操作系统。
- 多硬件支持:除了英伟达GPU外,还支持Intel CPU、昆仑芯、昇腾等新硬件推理和部署。
- 高性能推理插件:推荐结合高性能推理插件进一步提升推理速度,详见高性能推理指南。
- 服务化部署:支持高稳定性服务化部署方案,详见服务化部署指南。
- 二次开发能力:支持自定义数据集训练、字典扩展、模型微调。举例:如需增加韩文识别,可扩展字典并微调模型,无缝集成到现有产线,详见文本检测模块使用教程及文本识别模块使用教程