跳转至

PaddleX 文档

PaddleX产线列表(NPU)

PaddleX产线列表(NPU)¶

1、基础产线¶

产线名称	产线模块	星河社区体验地址	产线介绍	适用场景
通用图像分类	图像分类	在线体验	图像分类是一种将图像分配到预定义类别的技术。它广泛应用于物体识别、场景理解和自动标注等领域。图像分类可以识别各种物体，如动物、植物、交通标志等，并根据其特征将其归类。通过使用深度学习模型，图像分类能够自动提取图像特征并进行准确分类。	商品图片的自动分类和识别流水线上不合格产品的实时监控安防监控中人员的识别
通用目标检测	目标检测	在线体验	目标检测旨在识别图像或视频中多个对象的类别及其位置，通过生成边界框来标记这些对象。与简单的图像分类不同，目标检测不仅需要识别出图像中有哪些物体，例如人、车和动物等，还需要准确地确定每个物体在图像中的具体位置，通常以矩形框的形式表示。该技术广泛应用于自动驾驶、监控系统和智能相册等领域，依赖于深度学习模型（如YOLO、Faster R-CNN等），这些模型能够高效地提取特征并进行实时检测，显著提升了计算机对图像内容理解的能力。	视频监控中移动物体的跟踪自动驾驶中车辆的检测工业制造中缺陷产品的检测零售业中货架商品的检测
通用语义分割	语义分割	在线体验	语义分割是一种计算机视觉技术，旨在将图像中的每个像素分配到特定的类别，从而实现对图像内容的精细化理解。语义分割不仅要识别出图像中的物体类型，还要对每个像素进行分类，这样使得同一类别的区域能够被完整标记。例如，在一幅街景图像中，语义分割可以将行人、汽车、天空和道路等不同类别的部分逐像素区分开来，形成一个详细的标签图。这项技术广泛应用于自动驾驶、医学影像分析和人机交互等领域，通常依赖于深度学习模型（如FCN、U-Net等），通过卷积神经网络（CNN）来提取特征并实现高精度的像素级分类，从而为进一步的智能分析提供基础。	地理信息系统中卫星图像的分析机器人视觉中障碍物通行区域的物体的分割电影制作中前景和背景的分离
通用实例分割	实例分割	在线体验	实例分割是一种计算机视觉任务，它不仅要识别图像中的物体类别，还要区分同一类别中不同实例的像素，从而实现对每个物体的精确分割。实例分割可以在同一图像中分别标记出每一辆车、每一个人或每一只动物，确保它们在像素级别上被独立处理。例如，在一幅包含多辆车和行人的街景图像中，实例分割能够将每辆车和每个人的轮廓清晰地分开，形成多个独立的区域标签。这项技术广泛应用于自动驾驶、视频监控和机器人视觉等领域，通常依赖于深度学习模型（如Mask R-CNN等），通过卷积神经网络来实现高效的像素分类和实例区分，为复杂场景的理解提供了强大的支持。	商场中人群的计数农业智能化中农作物或果实数量的统计图像编辑中特定物体的选择和分割
文档场景信息抽取v3	表格结构识别	在线体验	文档图像场景信息抽取v3（PP-ChatOCRv3-doc）是飞桨特色的文档和图像智能分析解决方案，结合了 LLM 和 OCR 技术，一站式解决版面分析、生僻字、多页 pdf、表格、印章识别等常见的复杂文档信息抽取难点问题，结合文心大模型将海量数据和知识相融合，准确率高且应用广泛。开源版支持本地体验和本地部署，支持各个模块的微调训练。	知识图谱的构建在线新闻和社交媒体中特定事件相关信息的检测学术文献中关键信息的抽取和分析（特别是需要对印章、扭曲图片、更复杂表格进行识别的场景）
	版面区域检测
	文本检测
	文本识别
	印章文本检测
	文本图像矫正
	文档图像方向分类
文档场景信息抽取v4	表格结构识别	coming soon	文档场景信息抽取v4（PP-ChatOCRv4）是飞桨特色的文档和图像智能分析解决方案，结合了 LLM、MLLM 和 OCR 技术，在文档场景信息抽取v3的基础上，优化了版面分析、生僻字、多页 pdf、表格、印章识别等常见的复杂文档信息抽取难点问题，结合文心大模型将海量数据和知识相融合，准确率高且应用广泛。本产线同时提供了灵活的服务化部署方式，支持在多种硬件上部署。不仅如此，本产线也提供了二次开发的能力，您可以基于本产线在您自己的数据集上训练调优，训练后的模型也可以无缝集成。	知识图谱的构建在线新闻和社交媒体中特定事件相关信息的检测学术文献中关键信息的抽取和分析（特别是需要对印章、扭曲图片、更复杂表格进行识别的场景）
	版面区域检测
	文本检测
	文本识别
	印章文本检测
	文本图像矫正
	文档图像方向分类
	文档类视觉语言模型
通用OCR	文本检测	在线体验	OCR（光学字符识别，Optical Character Recognition）是一种将图像中的文字转换为可编辑文本的技术。它广泛应用于文档数字化、信息提取和数据处理等领域。OCR 可以识别印刷文本、手写文本，甚至某些类型的字体和符号。通用 OCR 产线用于解决文字识别任务，提取图片中的文字信息以文本形式输出，PP-OCRv4 是一个端到端 OCR 串联系统，可实现 CPU 上毫秒级的文本内容精准预测，在通用场景上达到开源SOTA。基于该项目，产学研界多方开发者已快速落地多个 OCR 应用，使用场景覆盖通用、制造、金融、交通等各个领域。	智能安防中车牌号门牌号等信息的识别纸质文档的数字化文化遗产中古代文字的识别
	文本识别
	文档图像方向分类
	文本图像矫正
	文本行方向分类
通用表格识别	表格结构识别	在线体验	表格识别是一种自动从文档或图像中识别和提取表格内容及其结构的技术，广泛应用于数据录入、信息检索和文档分析等领域。通过使用计算机视觉和机器学习算法，表格识别能够将复杂的表格信息转换为可编辑的格式，方便用户进一步处理和分析数据。	银行账单的处理医疗报告中各项指标的识别和提取合同中表格信息的提取
	文本检测
	文本识别
	版面区域检测
	文档图像方向分类
	文本图像矫正
时序预测	时序预测	在线体验	时序预测是一种利用历史数据来预测未来趋势的技术，通过分析时间序列数据的变化模式。广泛应用于金融市场、天气预报和销售预测等领域。它。时序预测通常使用统计方法或深度学习模型（如LSTM、ARIMA等），能够处理数据中的时间依赖性，以提供准确的预判，帮助决策者做出更好的规划和响应。此技术在许多行业中发挥着重要作用，如能源管理、供应链优化和市场分析等。	股票预测气候预测疾病传播预测能源需求预测交通流量预测产品生命周期预测电力负荷预测
时序异常检测	时序异常检测	在线体验	时序异常检测是一种识别时间序列数据中异常模式或行为的技术，广泛应用于网络安全、设备监控和金融欺诈检测等领域。它通过分析历史数据中的正常趋势和规律，来发现与预期行为显著不同的事件，例如突然增加的网络流量或异常的交易活动。时序异常检测通常使用统计方法或机器学习算法（如孤立森林、LSTM等），能够自动识别数据中的异常点，为企业和组织提供实时警报，帮助及时应对潜在风险和问题。这项技术在保障系统稳定性和安全性方面发挥着重要作用。	金融欺诈检测网络入侵检测设备故障检测工业生产异常检测股票市场异常检测电力系统异常检测
时序分类	时序分类	在线体验	时序分类是一种将时间序列数据归类到预定义类别的技术，广泛应用于行为识别、语音识别和金融趋势分析等领域。它通过分析随时间变化的特征，识别出不同的模式或事件，例如将一段语音信号分类为“问候”或“请求”，或将股票价格走势划分为“上涨”或“下跌”。时序分类通常使用机器学习和深度学习模型，能够有效捕捉时间依赖性和变化规律，以便为数据提供准确的分类标签。这项技术在智能监控、语音助手和市场预测等应用中起着关键作用。	心电图分类股票市场行为分类脑电图分类情绪分类交通状态分类网络流量分类设备工作状态分类
图像多标签分类	图像多标签分类	在线体验	图像多标签分类是一种将一张图像同时分配到多个相关类别的技术，广泛应用于图像标注、内容推荐和社交媒体分析等领域。它能够识别图像中存在的多个物体或特征，例如一张图片中同时包含“狗”和“户外”这两个标签。通过使用深度学习模型，图像多标签分类能够自动提取图像特征并进行准确分类，以便为用户提供更加全面的信息。这项技术在智能搜索引擎和自动内容生成等应用中具有重要意义。	医学影像诊断复杂场景识别多目标监控商品属性识别生态环境监测安全监控灾害预警
小目标检测	小目标检测	在线体验	小目标检测是一种专门识别图像中体积较小物体的技术，广泛应用于监控、无人驾驶和卫星图像分析等领域。它能够从复杂场景中准确找到并分类像行人、交通标志或小动物等小尺寸物体。通过使用深度学习算法和优化的卷积神经网络，小目标检测可以有效提升对小物体的识别能力，确保在实际应用中不遗漏重要信息。这项技术在提高安全性和自动化水平方面发挥着重要作用。	无人驾驶汽车中的行人检测卫星图像中的小型建筑物识别智能交通系统中的小型交通标志检测安防监控中的小型入侵物体识别工业检测中的微小瑕疵检测无人机图像中的小型动物监测
图像异常检测	图像异常检测	暂无	图像异常检测是一种通过分析图像中的内容，来识别与众不同或不符合正常模式的图像处理技术。它广泛应用于工业质量检测、医疗影像分析和安全监控等领域。通过使用机器学习和深度学习算法，图像异常检测能够自动识别出图像中潜在的缺陷、异常或异常行为，从而帮助我们及时发现问题并采取相应措施。图像异常检测系统被设计用于自动检测和标记图像中的异常情况，以提高工作效率和准确性。	工业质量控制医疗影像分析监控视频异常检测交通监控中的违规行为识别自动驾驶中的障碍物检测农业病虫害监测环境监测中的污染物识别
通用版面解析	版面区域检测	暂无	版面解析是一种从文档图像中提取结构化信息的技术，主要用于将复杂的文档版面转换为机器可读的数据格式。这项技术在文档管理、信息提取和数据数字化等领域具有广泛的应用。版面解析通过结合光学字符识别（OCR）、图像处理和机器学习算法，能够识别和提取文档中的文本块、标题、段落、图片、表格以及其他版面元素。此过程通常包括版面分析、元素分析和数据格式化三个主要步骤，最终生成结构化的文档数据，提升数据处理的效率和准确性。	金融与法律文档分析历史文献和档案数字化自动化表单填写页面结构解析
	版面区域检测模块
	文本检测模块
	文本识别模块
	文档图像方向分类模块
	文本图像矫正模块
	表格结构识别模块
	文本行方向分类模块
	公式识别模块
	印章文本检测模块
公式识别	公式识别模块	在线体验	公式识别是一种自动从文档或图像中识别和提取LaTeX公式内容及其结构的技术，广泛应用于数学、物理、计算机科学等领域的文档编辑和数据分析。通过使用计算机视觉和机器学习算法，公式识别能够将复杂的数学公式信息转换为可编辑的LaTeX格式，方便用户进一步处理和分析数据。	文档数字化与检索公式搜索引擎公式编辑器自动化排版
	版面区域检测模块
	文档图像方向分类模块
	文本图像矫正模块
印章文本识别	印章文本检测	在线体验	印章文本识别是一种自动从文档或图像中提取和识别印章内容的技术，印章文本的识别是文档处理的一部分，在很多场景都有用途，例如合同比对，出入库审核以及发票报销审核等场景。	合同和协议验证支票处理贷款审批法律文书管理
	文本识别
	版面区域检测
	文档图像方向分类
	文本图像矫正
通用图像识别	主体检测	暂无	通用图像识别产线旨在解决开放域目标定位及识别问题，通用图像识别产线能够在不同的环境和条件下有效识别和区分各种目标物体，从而广泛应用于自动驾驶、智能安防、医疗影像分析以及工业自动化等多个领域。	自动化身份核验无人零售自动驾驶
通用图像识别	图像特征	暂无		自动化身份核验无人零售自动驾驶
行人属性识别	行人检测	在线体验	行人属性识别是计算机视觉系统中的关键功能，用于在图像或视频中定位并标记行人的特定特征，如性别、年龄、衣物颜色和款式等。	智慧城市安防监控
行人属性识别	行人属性识别	在线体验	行人属性识别是计算机视觉系统中的关键功能，用于在图像或视频中定位并标记行人的特定特征，如性别、年龄、衣物颜色和款式等。	智慧城市安防监控
车辆属性识别	车辆检测	在线体验	车辆属性识别是计算机视觉系统中的重要组成部分，其主要任务是在图像或视频中定位并标记出车辆的特定属性，如车辆类型、颜色、车牌号等。该任务不仅要求准确检测出车辆，还需识别每辆车的详细属性信息。	智能停车交通管理自动驾驶
车辆属性识别	车辆属性识别	在线体验		智能停车交通管理自动驾驶
文档图像预处理	文档图像方向分类	暂无	文档图像预处理是文档分析与识别中的关键步骤，旨在通过一系列技术手段对文档图像进行优化，以提高后续处理的准确性和效率。文档图像预处理包括方向分类、文本矫正、去噪、二值化等操作，能够有效改善图像质量，纠正文档方向，并去除干扰因素。该技术广泛应用于文档扫描、OCR文字识别、电子文档生成等领域。	文档扫描仪中的自动方向校正 OCR系统中的文本图像优化历史文档数字化中的图像修复

2、特色产线¶

暂不支持，敬请期待！

评论