콘텐츠로 이동

近期更新

更新

🔥2024.10.1 添加OCR领域低代码全流程开发能力

  • 飞桨低代码开发工具PaddleX,依托于PaddleOCR的先进技术,支持了OCR领域的低代码全流程开发能力:

    • 🎨 模型丰富一键调用:将文本图像智能分析、通用OCR、通用版面解析、通用表格识别、公式识别、印章文本识别涉及的17个模型整合为6条模型产线,通过极简的Python API一键调用,快速体验模型效果。此外,同一套API,也支持图像分类、目标检测、图像分割、时序预测等共计200+模型,形成20+单功能模块,方便开发者进行模型组合使用。
    • 🚀提高效率降低门槛:提供基于统一命令图形界面两种方式,实现模型简洁高效的使用、组合与定制。支持高性能推理、服务化部署和端侧部署等多种部署方式。此外,对于各种主流硬件如英伟达GPU、昆仑芯、昇腾、寒武纪和海光等,进行模型开发时,都可以无缝切换
  • 支持文档场景信息抽取v3PP-ChatOCRv3-doc、基于RT-DETR的高精度版面区域检测模型和PicoDet的高效率版面区域检测模型、高精度表格结构识别模型SLANet_Plus、文本图像矫正模型UVDoc、公式识别模型LatexOCR、基于PP-LCNet的文档图像方向分类模型

🔥 2024.7 添加 PaddleOCR 算法模型挑战赛冠军方案:

- 赛题一:OCR 端到端识别任务冠军方案——[场景文本识别算法-SVTRv2](https://paddlepaddle.github.io/PaddleOCR/latest/algorithm/text_recognition/algorithm_rec_svtrv2.html);
- 赛题二:通用表格识别任务冠军方案——[表格识别算法-SLANet-LCNetV2](https://paddlepaddle.github.io/PaddleOCR/latest/algorithm/table_recognition/algorithm_table_slanet.html)。

🔥2024.5.10 上线星河零代码产线(OCR 相关)

全面覆盖了以下四大 OCR 核心任务,提供极便捷的 Badcase 分析和实用的在线体验

同时采用了 全新的场景任务开发范式 ,将模型统一汇聚,实现训练部署的零代码开发,并支持在线服务化部署和导出离线服务化部署包。

🔥2023.8.7 发布 PaddleOCR release/2.7

  • 发布PP-OCRv4,提供 mobile 和 server 两种模型
    • PP-OCRv4-mobile:速度可比情况下,中文场景效果相比于 PP-OCRv3 再提升 4.5%,英文场景提升 10%,80 语种多语言模型平均识别准确率提升 8%以上
    • PP-OCRv4-server:发布了目前精度最高的 OCR 模型,中英文场景上检测模型精度提升 4.9%, 识别模型精度提升 2% 可参考快速开始 一行命令快速使用,同时也可在飞桨 AI 套件(PaddleX)中的通用 OCR 产业方案中低代码完成模型训练、推理、高性能部署全流程

🔨2022.11 新增实现4 种前沿算法:文本检测 DRRG, 文本识别 RFL, 文本超分Text Telescope,公式识别CAN

2022.10 优化JS 版 PP-OCRv3 模型:模型大小仅 4.3M,预测速度提升 8 倍,配套 web demo 开箱即用

  • 💥 直播回放:PaddleOCR 研发团队详解 PP-StructureV2 优化策略。微信扫描下方二维码,关注公众号并填写问卷后进入官方交流群,获取直播回放链接与 20G 重磅 OCR 学习大礼包(内含 PDF 转 Word 应用程序、10 种垂类模型、《动手学 OCR》电子书等)

🔥2022.8.24 发布 PaddleOCR release/2.6

  • 发布PP-StructureV2,系统功能性能全面升级,适配中文场景,新增支持版面复原,支持一行命令完成 PDF 转 Word
  • 版面分析模型优化:模型存储减少 95%,速度提升 11 倍,平均 CPU 耗时仅需 41ms;
  • 表格识别模型优化:设计 3 大优化策略,预测耗时不变情况下,模型精度提升 6%;
  • 关键信息抽取模型优化:设计视觉无关模型结构,语义实体识别精度提升 2.8%,关系抽取精度提升 9.1%。

2022.8 发布 OCR 场景应用集合:包含数码管、液晶屏、车牌、高精度 SVTR 模型、手写体识别等9 个垂类模型,覆盖通用,制造、金融、交通行业的主要 OCR 垂类应用

2022.5.9 发布PaddleOCR v2.5。发布内容包括

  • PP-OCRv3,速度可比情况下,中文场景效果相比于PP-OCRv2再提升5%,英文场景提升11%,80语种多语言模型平均识别准确率提升5%以上;
  • 半自动标注工具PPOCRLabelv2:新增表格文字图像、图像关键信息抽取任务和不规则文字图像的标注功能;
  • OCR产业落地工具集:打通22种训练部署软硬件环境与方式,覆盖企业90%的训练部署环境需求
  • 交互式OCR开源电子书《动手学OCR》,覆盖OCR全栈技术的前沿理论与代码实践,并配套教学视频。

2022.5.7 添加对Weights & Biases训练日志记录工具的支持

2021.12.21 《OCR十讲》课程开讲,12月21日起每晚八点半线上授课! 【免费】报名地址:https://aistudio.baidu.com/aistudio/course/introduce/25207

2021.12.21 发布PaddleOCR v2.4。OCR算法新增1种文本检测算法(PSENet),3种文本识别算法(NRTR、SEED、SAR);文档结构化算法新增1种关键信息提取算法(SDMGR),3种DocVQA算法(LayoutLM、LayoutLMv2,LayoutXLM)

2021.9.7 发布PaddleOCR v2.3,发布PP-OCRv2,CPU推理速度相比于PP-OCR server提升220%;效果相比于PP-OCR mobile 提升7%

2021.8.3 发布PaddleOCR v2.2,新增文档结构分析PP-Structure工具包,支持版面分析与表格识别(含Excel导出)

2021.6.29 FAQ新增5个高频问题,总数248个,每周一都会更新,欢迎大家持续关注

2021.4.8 release 2.1版本,新增AAAI 2021论文端到端识别算法PGNet开源,多语言模型支持种类增加到80+

2020.12.15 更新数据合成工具Style-Text,可以批量合成大量与目标场景类似的图像,在多个场景验证,效果明显提升

2020.12.07 FAQ新增5个高频问题,总数124个,并且计划以后每周一都会更新,欢迎大家持续关注

2020.11.25 更新半自动标注工具PPOCRLabel,辅助开发者高效完成标注任务,输出格式与PP-OCR训练任务完美衔接

2020.9.22 更新PP-OCR技术文章,https://arxiv.org/abs/2009.09941

2020.9.19 更新超轻量压缩ppocr_mobile_slim系列模型,整体模型3.5M(详见PP-OCR Pipeline),适合在移动端部署使用

2020.9.17 更新超轻量ppocr_mobile系列和通用ppocr_server系列中英文ocr模型,媲美商业效果

2020.9.17 更新英文识别模型多语种识别模型,已支持德语、法语、日语、韩语,更多语种识别模型将持续更新

2020.8.26 更新OCR相关的84个常见问题及解答,具体参考FAQ

2020.8.24 支持通过whl包安装使用PaddleOCR,具体参考Paddleocr Package使用说明

2020.8.21 更新8月18日B站直播课回放和PPT,课节2,易学易用的OCR工具大礼包,获取地址

2020.8.16 开源文本检测算法SAST和文本识别算法SRN

2020.7.23 发布7月21日B站直播课回放和PPT,课节1,PaddleOCR开源大礼包全面解读,获取地址

2020.7.15 添加基于EasyEdge和Paddle-Lite的移动端DEMO,支持iOS和Android系统

2020.7.15 完善预测部署,添加基于C++预测引擎推理、服务化部署和端侧部署方案,以及超轻量级中文OCR模型预测耗时Benchmark

2020.7.15 整理OCR相关数据集、常用数据标注以及合成工具

2020.7.9 添加支持空格的识别模型,识别效果,预测及训练方式请参考快速开始和文本识别训练相关文档

2020.7.9 添加数据增强、学习率衰减策略,具体参考配置文件

2020.6.8 添加数据集,并保持持续更新

2020.6.5 支持 attetnion 模型导出 inference_model

2020.6.5 支持单独预测识别时,输出结果得分

2020.5.30 提供超轻量级中文OCR在线体验

2020.5.30 模型预测、训练支持Windows系统

2020.5.30 开源通用中文OCR模型

2020.5.14 发布PaddleOCR公开课

2020.5.14 发布PaddleOCR实战练习

2020.5.14 开源8.6M超轻量级中文OCR模型

댓글