场景文本识别算法-SVTR¶
1. 算法简介¶
论文信息:
SVTR: Scene Text Recognition with a Single Visual Model Yongkun Du and Zhineng Chen and Caiyan Jia and Xiaoting Yin and Tianlun Zheng and Chenxia Li and Yuning Du and Yu-Gang Jiang IJCAI, 2022
场景文本识别旨在将自然图像中的文本转录为数字字符序列,从而传达对场景理解至关重要的高级语义。这项任务由于文本变形、字体、遮挡、杂乱背景等方面的变化具有一定的挑战性。先前的方法为提高识别精度做出了许多工作。然而文本识别器除了准确度外,还因为实际需求需要考虑推理速度等因素。
SVTR算法简介¶
主流的场景文本识别模型通常包含两个模块:用于特征提取的视觉模型和用于文本转录的序列模型。这种架构虽然准确,但复杂且效率较低,限制了在实际场景中的应用。SVTR提出了一种用于场景文本识别的单视觉模型,该模型在patch-wise image tokenization框架内,完全摒弃了序列建模,在精度具有竞争力的前提下,模型参数量更少,速度更快,主要有以下几点贡献:
- 首次发现单视觉模型可以达到与视觉语言模型相媲美甚至更高的准确率,并且其具有效率高和适应多语言的优点,在实际应用中很有前景。
- SVTR从字符组件的角度出发,逐渐的合并字符组件,自下而上地完成字符的识别。
- SVTR引入了局部和全局Mixing,分别用于提取字符组件特征和字符间依赖关系,与多尺度的特征一起,形成多粒度特征描述。
SVTR在场景文本识别公开数据集上的精度(%)和模型文件如下:
- 中文数据集来自于Chinese Benckmark ,SVTR的中文训练评估策略遵循该论文。
模型 | IC13 857 |
SVT | IIIT5k 3000 |
IC15 1811 |
SVTP | CUTE80 | Avg_6 | IC15 2077 |
IC13 1015 |
IC03 867 |
IC03 860 |
Avg_10 | Chinese scene_test |
下载链接 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
SVTR Tiny | 96.85 | 91.34 | 94.53 | 83.99 | 85.43 | 89.24 | 90.87 | 80.55 | 95.37 | 95.27 | 95.70 | 90.13 | 67.90 | 英文 / 中文 |
SVTR Small | 95.92 | 93.04 | 95.03 | 84.70 | 87.91 | 92.01 | 91.63 | 82.72 | 94.88 | 96.08 | 96.28 | 91.02 | 69.00 | 英文 / 中文 |
SVTR Base | 97.08 | 91.50 | 96.03 | 85.20 | 89.92 | 91.67 | 92.33 | 83.73 | 95.66 | 95.62 | 95.81 | 91.61 | 71.40 | 英文 / - |
SVTR Large | 97.20 | 91.65 | 96.30 | 86.58 | 88.37 | 95.14 | 92.82 | 84.54 | 96.35 | 96.54 | 96.74 | 92.24 | 72.10 | 英文 / 中文 |
2. 环境配置¶
请先参考《运行环境准备》配置PaddleOCR运行环境,参考《项目克隆》克隆项目代码。
3. 模型训练、评估、预测¶
3.1 模型训练¶
数据集准备¶
启动训练¶
请参考文本识别训练教程。PaddleOCR对代码进行了模块化,训练SVTR
识别模型时需要更换配置文件为SVTR
的配置文件。
具体地,在完成数据准备后,便可以启动训练,训练命令如下:
3.2 评估¶
可下载SVTR
提供的模型文件和配置文件:下载地址 ,以SVTR-T
为例,使用如下命令进行评估:
3.3 预测¶
使用如下命令进行单张图片预测:
4. 推理部署¶
4.1 Python推理¶
首先将训练得到best模型,转换成inference model。下面以SVTR-T
在英文数据集训练的模型为例(模型和配置文件下载地址 ),可以使用如下命令进行转换:
注意: 如果您是在自己的数据集上训练的模型,并且调整了字典文件,请注意修改配置文件中的character_dict_path
是否为所正确的字典文件。
转换成功后,在目录下有三个文件:
执行如下命令进行模型推理:
执行命令后,上面图像的预测结果(识别的文本和得分)会打印到屏幕上,示例如下: 结果如下:
注意:
- 如果您调整了训练时的输入分辨率,需要通过参数
rec_image_shape
设置为您需要的识别图像形状。 - 在推理时需要设置参数
rec_char_dict_path
指定字典,如果您修改了字典,请修改该参数为您的字典文件。 - 如果您修改了预处理方法,需修改
tools/infer/predict_rec.py
中SVTR的预处理为您的预处理方法。
4.2 C++推理部署¶
由于C++预处理后处理还未支持SVTR,所以暂未支持
4.3 Serving服务化部署¶
暂不支持
4.4 更多推理部署¶
暂不支持
5. FAQ¶
-
- GPU和CPU速度对比
-
由于
SVTR
使用的算子大多为矩阵相乘,在GPU环境下,速度具有优势,但在CPU开启mkldnn加速环境下,SVTR
相比于被优化的卷积网络没有优势。 -
- SVTR模型转ONNX失败
- 保证
paddle2onnx
和onnxruntime
版本最新,转onnx命令参考SVTR模型转onnx步骤实例。 -
- SVTR转ONNX成功但是推理结果不正确
- 可能的原因模型参数
out_char_num
设置不正确,应设置为W//4、W//8或者W//12,可以参考高精度中文场景文本识别模型SVTR的3.3.3章节。 -
- 长文本识别优化
- 参考高精度中文场景文本识别模型SVTR的3.3章节。
-
- 论文结果复现注意事项
- 数据集使用ABINet提供的数据集;
- 默认使用4卡GPU训练,单卡Batchsize默认为512,总Batchsize为2048,对应的学习率为0.0005,当修改Batchsize或者改变GPU卡数,学习率应等比例修改。
-
- 进一步优化的探索点
- 学习率调整:可以调整为默认的两倍保持Batchsize不变;或者将Batchsize减小为默认的1/2,保持学习率不变;
- 数据增强策略:可选
RecConAug
和RecAug
; - 如果不使用STN时,可以将
mixer
的Local
替换为Conv
、local_mixer
全部修改为[5, 5]
; - 网格搜索最优的
embed_dim
、depth
、num_heads
配置; - 使用
后Normalization策略
,即是将模型配置prenorm
修改为True
。
引用¶
@article{Du2022SVTR,
title = {SVTR: Scene Text Recognition with a Single Visual Model},
author = {Du, Yongkun and Chen, Zhineng and Jia, Caiyan and Yin, Xiaoting and Zheng, Tianlun and Li, Chenxia and Du, Yuning and Jiang, Yu-Gang},
booktitle = {IJCAI},
year = {2022},
url = {https://arxiv.org/abs/2205.00159}
}