多语言模型¶
近期更新
- 2022.5.8 更新
PP-OCRv3
版 多语言检测和识别模型,平均识别准确率提升5%以上。 - 2021.4.9 支持80种语言的检测和识别
- 2021.4.9 支持轻量高精度英文模型检测识别
PaddleOCR 旨在打造一套丰富、领先、且实用的OCR工具库,不仅提供了通用场景下的中英文模型,也提供了专门在英文场景下训练的模型, 和覆盖80个语言的小语种模型。
其中英文模型支持,大小写字母和常见标点的检测识别,并优化了空格字符的识别:
小语种模型覆盖了拉丁语系、阿拉伯语系、中文繁体、韩语、日语等等:
本文档将简要介绍小语种模型的使用方法。
1 安装¶
1.1 paddle 安装¶
1.2 paddleocr package 安装¶
pip 安装
本地构建并安装
2 快速使用¶
2.1 命令行运行¶
查看帮助信息
- 整图预测(检测+识别)
Paddleocr目前支持80个语种,可以通过修改--lang参数进行切换,具体支持的语种可查看表格。
结果是一个list,每个item包含了文本框,文字和识别置信度
- 识别预测
结果是一个tuple,返回识别结果和识别置信度
- 检测预测
结果是一个list,每个item只包含文本框
2.2 python 脚本运行¶
ppocr 也支持在python脚本中运行,便于嵌入到您自己的代码中 :
- 整图预测(检测+识别)
结果可视化:
ppocr 还支持方向分类, 更多使用方式请参考:whl包使用说明
3 自定义训练¶
ppocr 支持使用自己的数据进行自定义训练或finetune, 其中识别模型可以参考法语配置文件 修改训练数据路径、字典等参数。
假设已经准备好了训练数据,可根据以下步骤快速启动训练:
- 修改配置文件
以 rec_french_lite_train.yml
为例:
- 启动训练:
更多功能如预测部署、数据标注等功能可以阅读完整的文档教程。
4 预测部署¶
除了安装whl包进行快速预测,ppocr 也提供了多种预测部署方式,如有需求可阅读相关文档:
5 支持语种及缩写¶
语种 | 描述 | 缩写 | 语种 | 描述 | 缩写 | |
---|---|---|---|---|---|---|
中文 | chinese and english | ch | 保加利亚文 | Bulgarian | bg | |
英文 | english | en | 乌克兰文 | Ukranian | uk | |
法文 | french | fr | 白俄罗斯文 | Belarusian | be | |
德文 | german | german | 泰卢固文 | Telugu | te | |
日文 | japan | japan | 阿巴扎文 | Abaza | abq | |
韩文 | korean | korean | 泰米尔文 | Tamil | ta | |
中文繁体 | chinese traditional | chinese_cht | 南非荷兰文 | Afrikaans | af | |
意大利文 | Italian | it | 阿塞拜疆文 | Azerbaijani | az | |
西班牙文 | Spanish | es | 波斯尼亚文 | Bosnian | bs | |
葡萄牙文 | Portuguese | pt | 捷克文 | Czech | cs | |
俄罗斯文 | Russia | ru | 威尔士文 | Welsh | cy | |
阿拉伯文 | Arabic | ar | 丹麦文 | Danish | da | |
印地文 | Hindi | hi | 爱沙尼亚文 | Estonian | et | |
维吾尔 | Uyghur | ug | 爱尔兰文 | Irish | ga | |
波斯文 | Persian | fa | 克罗地亚文 | Croatian | hr | |
乌尔都文 | Urdu | ur | 匈牙利文 | Hungarian | hu | |
塞尔维亚文(latin) | Serbian(latin) | rs_latin | 印尼文 | Indonesian | id | |
欧西坦文 | Occitan | oc | 冰岛文 | Icelandic | is | |
马拉地文 | Marathi | mr | 库尔德文 | Kurdish | ku | |
尼泊尔文 | Nepali | ne | 立陶宛文 | Lithuanian | lt | |
塞尔维亚文(cyrillic) | Serbian(cyrillic) | rs_cyrillic | 拉脱维亚文 | Latvian | lv | |
毛利文 | Maori | mi | 达尔瓦文 | Dargwa | dar | |
马来文 | Malay | ms | 因古什文 | Ingush | inh | |
马耳他文 | Maltese | mt | 拉克文 | Lak | lbe | |
荷兰文 | Dutch | nl | 莱兹甘文 | Lezghian | lez | |
挪威文 | Norwegian | no | 塔巴萨兰文 | Tabassaran | tab | |
波兰文 | Polish | pl | 比尔哈文 | Bihari | bh | |
罗马尼亚文 | Romanian | ro | 迈蒂利文 | Maithili | mai | |
斯洛伐克文 | Slovak | sk | 昂加文 | Angika | ang | |
斯洛文尼亚文 | Slovenian | sl | 孟加拉文 | Bhojpuri | bho | |
阿尔巴尼亚文 | Albanian | sq | 摩揭陀文 | Magahi | mah | |
瑞典文 | Swedish | sv | 那格浦尔文 | Nagpur | sck | |
西瓦希里文 | Swahili | sw | 尼瓦尔文 | Newari | new | |
塔加洛文 | Tagalog | tl | 保加利亚文 | Goan Konkani | gom | |
土耳其文 | Turkish | tr | 沙特阿拉伯文 | Saudi Arabia | sa | |
乌兹别克文 | Uzbek | uz | 阿瓦尔文 | Avar | ava | |
越南文 | Vietnamese | vi | 阿瓦尔文 | Avar | ava | |
蒙古文 | Mongolian | mn | 阿迪赫文 | Adyghe | ady |