跳转至

PaddleX 文档

PaddleX产线列表(CPU/GPU)

PaddleX产线列表(CPU/GPU)¶

1、基础产线¶

产线名称	产线模块	星河社区体验地址	产线介绍	适用场景
通用图像分类	图像分类	在线体验	图像分类是一种将图像分配到预定义类别的技术。它广泛应用于物体识别、场景理解和自动标注等领域。图像分类可以识别各种物体，如动物、植物、交通标志等，并根据其特征将其归类。通过使用深度学习模型，图像分类能够自动提取图像特征并进行准确分类。	商品图片的自动分类和识别流水线上不合格产品的实时监控安防监控中人员的识别
通用目标检测	目标检测	在线体验	目标检测旨在识别图像或视频中多个对象的类别及其位置，通过生成边界框来标记这些对象。与简单的图像分类不同，目标检测不仅需要识别出图像中有哪些物体，例如人、车和动物等，还需要准确地确定每个物体在图像中的具体位置，通常以矩形框的形式表示。该技术广泛应用于自动驾驶、监控系统和智能相册等领域，依赖于深度学习模型（如YOLO、Faster R-CNN等），这些模型能够高效地提取特征并进行实时检测，显著提升了计算机对图像内容理解的能力。	视频监控中移动物体的跟踪自动驾驶中车辆的检测工业制造中缺陷产品的检测零售业中货架商品的检测
通用语义分割	语义分割	在线体验	语义分割是一种计算机视觉技术，旨在将图像中的每个像素分配到特定的类别，从而实现对图像内容的精细化理解。语义分割不仅要识别出图像中的物体类型，还要对每个像素进行分类，这样使得同一类别的区域能够被完整标记。例如，在一幅街景图像中，语义分割可以将行人、汽车、天空和道路等不同类别的部分逐像素区分开来，形成一个详细的标签图。这项技术广泛应用于自动驾驶、医学影像分析和人机交互等领域，通常依赖于深度学习模型（如FCN、U-Net等），通过卷积神经网络（CNN）来提取特征并实现高精度的像素级分类，从而为进一步的智能分析提供基础。	地理信息系统中卫星图像的分析机器人视觉中障碍物通行区域的物体的分割电影制作中前景和背景的分离
通用实例分割	实例分割	在线体验	实例分割是一种计算机视觉任务，它不仅要识别图像中的物体类别，还要区分同一类别中不同实例的像素，从而实现对每个物体的精确分割。实例分割可以在同一图像中分别标记出每一辆车、每一个人或每一只动物，确保它们在像素级别上被独立处理。例如，在一幅包含多辆车和行人的街景图像中，实例分割能够将每辆车和每个人的轮廓清晰地分开，形成多个独立的区域标签。这项技术广泛应用于自动驾驶、视频监控和机器人视觉等领域，通常依赖于深度学习模型（如Mask R-CNN等），通过卷积神经网络来实现高效的像素分类和实例区分，为复杂场景的理解提供了强大的支持。	商场中人群的计数农业智能化中农作物或果实数量的统计图像编辑中特定物体的选择和分割
文档场景信息抽取v3	表格结构识别	在线体验	文档图像场景信息抽取v3（PP-ChatOCRv3-doc）是飞桨特色的文档和图像智能分析解决方案，结合了 LLM 和 OCR 技术，一站式解决版面分析、生僻字、多页 pdf、表格、印章识别等常见的复杂文档信息抽取难点问题，结合文心大模型将海量数据和知识相融合，准确率高且应用广泛。开源版支持本地体验和本地部署，支持各个模块的微调训练。	知识图谱的构建在线新闻和社交媒体中特定事件相关信息的检测学术文献中关键信息的抽取和分析（特别是需要对印章、扭曲图片、更复杂表格进行识别的场景）
	版面区域检测
	文本检测
	文本识别
	印章文本检测
	文本图像矫正
	文档图像方向分类
通用OCR	文本检测	在线体验	OCR（光学字符识别，Optical Character Recognition）是一种将图像中的文字转换为可编辑文本的技术。它广泛应用于文档数字化、信息提取和数据处理等领域。OCR 可以识别印刷文本、手写文本，甚至某些类型的字体和符号。通用 OCR 产线用于解决文字识别任务，提取图片中的文字信息以文本形式输出，PP-OCRv4 是一个端到端 OCR 串联系统，可实现 CPU 上毫秒级的文本内容精准预测，在通用场景上达到开源SOTA。基于该项目，产学研界多方开发者已快速落地多个 OCR 应用，使用场景覆盖通用、制造、金融、交通等各个领域。	智能安防中车牌号门牌号等信息的识别纸质文档的数字化文化遗产中古代文字的识别
通用OCR	文本识别	在线体验		智能安防中车牌号门牌号等信息的识别纸质文档的数字化文化遗产中古代文字的识别
通用表格识别	版面区域检测	在线体验	表格识别是一种自动从文档或图像中识别和提取表格内容及其结构的技术，广泛应用于数据录入、信息检索和文档分析等领域。通过使用计算机视觉和机器学习算法，表格识别能够将复杂的表格信息转换为可编辑的格式，方便用户进一步处理和分析数据。	银行账单的处理医疗报告中各项指标的识别和提取合同中表格信息的提取
	表格结构识别
	文本检测
	文本识别
时序预测	时序预测	在线体验	时序预测是一种利用历史数据来预测未来趋势的技术，通过分析时间序列数据的变化模式。广泛应用于金融市场、天气预报和销售预测等领域。它。时序预测通常使用统计方法或深度学习模型（如LSTM、ARIMA等），能够处理数据中的时间依赖性，以提供准确的预判，帮助决策者做出更好的规划和响应。此技术在许多行业中发挥着重要作用，如能源管理、供应链优化和市场分析等。	股票预测气候预测疾病传播预测能源需求预测交通流量预测产品生命周期预测电力负荷预测
时序异常检测	时序异常检测	在线体验	时序异常检测是一种识别时间序列数据中异常模式或行为的技术，广泛应用于网络安全、设备监控和金融欺诈检测等领域。它通过分析历史数据中的正常趋势和规律，来发现与预期行为显著不同的事件，例如突然增加的网络流量或异常的交易活动。时序异常检测通常使用统计方法或机器学习算法（如孤立森林、LSTM等），能够自动识别数据中的异常点，为企业和组织提供实时警报，帮助及时应对潜在风险和问题。这项技术在保障系统稳定性和安全性方面发挥着重要作用。	金融欺诈检测网络入侵检测设备故障检测工业生产异常检测股票市场异常检测电力系统异常检测
时序分类	时序分类	在线体验	时序分类是一种将时间序列数据归类到预定义类别的技术，广泛应用于行为识别、语音识别和金融趋势分析等领域。它通过分析随时间变化的特征，识别出不同的模式或事件，例如将一段语音信号分类为“问候”或“请求”，或将股票价格走势划分为“上涨”或“下跌”。时序分类通常使用机器学习和深度学习模型，能够有效捕捉时间依赖性和变化规律，以便为数据提供准确的分类标签。这项技术在智能监控、语音助手和市场预测等应用中起着关键作用。	心电图分类股票市场行为分类脑电图分类情绪分类交通状态分类网络流量分类设备工作状态分类
图像多标签分类	图像多标签分类	暂无	图像多标签分类是一种将一张图像同时分配到多个相关类别的技术，广泛应用于图像标注、内容推荐和社交媒体分析等领域。它能够识别图像中存在的多个物体或特征，例如一张图片中同时包含“狗”和“户外”这两个标签。通过使用深度学习模型，图像多标签分类能够自动提取图像特征并进行准确分类，以便为用户提供更加全面的信息。这项技术在智能搜索引擎和自动内容生成等应用中具有重要意义。	医学影像诊断复杂场景识别多目标监控商品属性识别生态环境监测安全监控灾害预警
小目标检测	小目标检测	暂无	小目标检测是一种专门识别图像中体积较小物体的技术，广泛应用于监控、无人驾驶和卫星图像分析等领域。它能够从复杂场景中准确找到并分类像行人、交通标志或小动物等小尺寸物体。通过使用深度学习算法和优化的卷积神经网络，小目标检测可以有效提升对小物体的识别能力，确保在实际应用中不遗漏重要信息。这项技术在提高安全性和自动化水平方面发挥着重要作用。	无人驾驶汽车中的行人检测卫星图像中的小型建筑物识别智能交通系统中的小型交通标志检测安防监控中的小型入侵物体识别工业检测中的微小瑕疵检测无人机图像中的小型动物监测
图像异常检测	图像异常检测	暂无	图像异常检测是一种通过分析图像中的内容，来识别与众不同或不符合正常模式的图像处理技术。它广泛应用于工业质量检测、医疗影像分析和安全监控等领域。通过使用机器学习和深度学习算法，图像异常检测能够自动识别出图像中潜在的缺陷、异常或异常行为，从而帮助我们及时发现问题并采取相应措施。图像异常检测系统被设计用于自动检测和标记图像中的异常情况，以提高工作效率和准确性。	工业质量控制医疗影像分析监控视频异常检测交通监控中的违规行为识别自动驾驶中的障碍物检测农业病虫害监测环境监测中的污染物识别
通用版面解析	表格结构识别	暂无	版面解析是一种从文档图像中提取结构化信息的技术，主要用于将复杂的文档版面转换为机器可读的数据格式。这项技术在文档管理、信息提取和数据数字化等领域具有广泛的应用。版面解析通过结合光学字符识别（OCR）、图像处理和机器学习算法，能够识别和提取文档中的文本块、标题、段落、图片、表格以及其他版面元素。此过程通常包括版面分析、元素分析和数据格式化三个主要步骤，最终生成结构化的文档数据，提升数据处理的效率和准确性。	金融与法律文档分析历史文献和档案数字化自动化表单填写页面结构解析
	版面区域检测
	文本检测
	文本识别
	公式识别
	印章文本检测
	文本图像矫正
	文档图像方向分类
公式识别	版面区域检测	暂无	公式识别是一种自动从文档或图像中识别和提取LaTeX公式内容及其结构的技术，广泛应用于数学、物理、计算机科学等领域的文档编辑和数据分析。通过使用计算机视觉和机器学习算法，公式识别能够将复杂的数学公式信息转换为可编辑的LaTeX格式，方便用户进一步处理和分析数据。	文档数字化与检索公式搜索引擎公式编辑器自动化排版
公式识别	公式识别	暂无		文档数字化与检索公式搜索引擎公式编辑器自动化排版
印章文本识别	版面区域检测	暂无	印章文本识别是一种自动从文档或图像中提取和识别印章内容的技术，印章文本的识别是文档处理的一部分，在很多场景都有用途，例如合同比对，出入库审核以及发票报销审核等场景。	合同和协议验证支票处理贷款审批法律文书管理
	印章文本检测
	文本识别
通用图像识别	主体检测	暂无	通用图像识别产线旨在解决开放域目标定位及识别问题，通用图像识别产线能够在不同的环境和条件下有效识别和区分各种目标物体，从而广泛应用于自动驾驶、智能安防、医疗影像分析以及工业自动化等多个领域。	自动化身份核验无人零售自动驾驶
通用图像识别	图像特征	暂无		自动化身份核验无人零售自动驾驶
行人属性识别	行人检测	暂无	行人属性识别是计算机视觉系统中的关键功能，用于在图像或视频中定位并标记行人的特定特征，如性别、年龄、衣物颜色和款式等。	智慧城市安防监控
行人属性识别	行人属性识别	暂无	行人属性识别是计算机视觉系统中的关键功能，用于在图像或视频中定位并标记行人的特定特征，如性别、年龄、衣物颜色和款式等。	智慧城市安防监控
车辆属性识别	车辆检测	暂无	车辆属性识别是计算机视觉系统中的重要组成部分，其主要任务是在图像或视频中定位并标记出车辆的特定属性，如车辆类型、颜色、车牌号等。该任务不仅要求准确检测出车辆，还需识别每辆车的详细属性信息。	智能停车交通管理自动驾驶
车辆属性识别	车辆属性识别	暂无		智能停车交通管理自动驾驶
人脸识别	人脸检测	暂无	人脸识别任务是计算机视觉领域的重要组成部分，旨在通过分析和比较人脸特征，实现对个人身份的自动识别。	安全认证监控系统社交媒体
人脸识别	人脸特征	暂无	人脸识别任务是计算机视觉领域的重要组成部分，旨在通过分析和比较人脸特征，实现对个人身份的自动识别。	安全认证监控系统社交媒体

2、特色产线¶

产线名称	产线模块	星河社区体验地址	产线介绍	适用场景
大模型半监督学习-图像分类	大模型半监督学习-图像分类	在线体验	图像分类是一种将图像分配到预定义类别的技术。它广泛应用于物体识别、场景理解和自动标注等领域。图像分类可以识别各种物体，如动物、植物、交通标志等，并根据其特征将其归类。通过使用深度学习模型，图像分类能够自动提取图像特征并进行准确分类。通用图像分类产线用于解决图像分类任务，对给定的图像。	商品图像分类艺术品风格分类农作物病虫害识别动物种类识别卫星遥感图像中土地、水体、建筑的分类
大模型半监督学习-目标检测	大模型半监督学习-目标检测	在线体验	大模型半监督学习-目标检测产线是飞桨特色的目标检测训练产线，通过大小模型联合训练的方式，使用少量有标签数据和大量无标注数据提升模型的精度，大幅度减少人工迭代模型的成本、标注数据的成本。下图展示了该产线在公开数据集 COCO 10% 有标注数据的指标情况。使用该产线训练后，在 COCO 10% 有标签数据 +90% 无标签数据上，大模型（RT-DETR-H）相比直接训练，精度高 8.4 个百分点（47.7%->56.1%），刷新了该数据集的 SOTA。小模型（PicoDet-S）相比直接训练，精度高了 10 个百分点以上（18.3%->28.8%）。	自动驾驶中行人、车辆、交通标志的检测军事侦察中敌方设施、装备的检测深海探测中海底生物的检测
大模型半监督学习-OCR	文本检测	在线体验	大模型半监督学习-OCR 产线是飞桨特色的 OCR 训练产线，由文本检测模型和文本识别模型串联完成。预测图片首先经过文本检测模型获取全部的文本行检测框并进行矫正，之后经文本识别模型得到 OCR 文本结果。在文本识别部分，通过大小模型联合训练的方式，使用少量有标签数据和大量无标签数据提升模型的精度，大幅度减少人工迭代模型的成本、标注数据的成本。下图展示了文本识别应用中的 2 个场景使用该产线后的效果，可以看到，在不同的场景中，大模型和小模型均有大幅提升。	纸质文档电子化身份证、护照、驾驶执照上个人信息的读取和验证零售中产品信息识别
大模型半监督学习-OCR	大模型半监督学习-文本识别	在线体验		纸质文档电子化身份证、护照、驾驶执照上个人信息的读取和验证零售中产品信息识别
通用场景信息抽取v2	文本检测	在线体验	通用场景信息抽取产线（PP-ChatOCRv2-common）是飞桨特色的复杂文档智能分析解决方案，结合了 LLM 和 OCR 技术，将文心大模型将海量数据和知识相融合，准确率高且应用广泛。 PP-ChatOCRv2-common 的系统流程：首先输入预测图片，送入通用 OCR 系统，经过文本检测和文本识别模型预测出文字，与用户 Query 之间进行向量检索，得到与 Query 相关的文本信息；最后把这些文本信息传入 prompt 生成器重新组合成 prompt，让文心大模型给出预测结果。	身份证、银行卡、户口本、火车票、纸质发票等多种场景的关键信息提取
通用场景信息抽取v2	文本识别	在线体验		身份证、银行卡、户口本、火车票、纸质发票等多种场景的关键信息提取
文档场景信息抽取v2	版面区域检测	在线体验	文档场景信息抽取产线（PP-ChatOCRv2-doc）是飞桨特色的复杂文档智能分析解决方案，结合了 LLM 和 OCR 技术，一站式解决生僻字、特殊标点、多页 pdf、表格等常见的复杂文档信息抽取难点问题，结合文心大模型将海量数据和知识相融合，准确率高且应用广泛。 PP-ChatOCRv2-doc 的系统流程如下图所示：首先输入预测图片，送入通用 OCR 系统，经过版面分析后，预测图像中的文字信息和表格结构；随后将 OCR 系统预测出的文字、表格结构与用户 Query 之间进行向量检索，得到与 Query 相关的文本信息；最后把这些文本信息传入 prompt 生成器重新组合成 prompt，让文心大模型给出预测结果。	知识图谱的构建在线新闻和社交媒体中特定事件相关信息的检测学术文献中关键信息的抽取和分析
	文本检测
	文本识别
	表格识别
文档场景信息抽取v3	表格结构识别	在线体验	文档图像场景信息抽取v3（PP-ChatOCRv3-doc）是飞桨特色的文档和图像智能分析解决方案，结合了 LLM 和 OCR 技术，一站式解决版面分析、生僻字、多页 pdf、表格、印章识别等常见的复杂文档信息抽取难点问题，结合文心大模型将海量数据和知识相融合，准确率高且应用广泛。该特色产线在星河社区上支持更强的二次开发能力（如OCR识别数据融合能力），支持性能更强的服务化部署能力。	知识图谱的构建在线新闻和社交媒体中特定事件相关信息的检测学术文献中关键信息的抽取和分析（特别是需要对印章、扭曲图片、更复杂表格进行识别的场景）
	版面区域检测
	文本检测
	文本识别
	印章文本检测
	文档图像矫正
	文档图像方向分类
多模型融合时序预测v2	时序预测模块	在线体验	多模型融合时序预测v2 产线的特点是针对不同任务场景，能够自适应的选择和集成模型，提升任务的精度。时序在每日的生活、工作中随处可见，时序预测的任务是指根据历史时间序列数据的模式和趋势，对未来的时间序列进行预测的任务。它在许多领域中都有应用，包括金融、天气预报、交通流量预测、销售预测、股票价格预测等。	股票市场预测销售预测电力需求预测天气预测疾病爆发预测网络流量预测金融风险预测
多模型融合时序异常检测v2	时序异常检测模块	在线体验	多模型融合时序异常检测产线的特点是针对不同任务场景，能够自适应的选择和集成模型，提升任务的精度。时序异常检测是目前时序数据分析成熟的应用之一，其旨在从正常的时间序列数据中识别出异常的事件或行为模式，在众多领域都发挥着重要作用：量化交易中，用于发现异常交易行为，规避潜在的金融风险；在网络安全领域，用于实时监测网络流量，及时发现并预防网络攻击行为的发生；在自动驾驶汽车领域，异常检测可以持续监测车载传感器数据，及时发现可能导致事故的异常情况；而在大型工业设备维护中，异常检测也能够帮助工程师提前发现设备故障苗头，从而采取预防性维护措施，降低设备停机时间和维修成本。	网络入侵检测金融欺诈检测工业生产中故障设备检测医疗健康中患者异常状态监测

评论