版面分析数据集
版面分析数据集¶
这里整理了常用版面分析数据集,持续更新中,欢迎各位小伙伴贡献数据集~
版面分析数据集多为目标检测数据集,除了开源数据,用户还可使用合成工具自行合成,如labelme等。
1、publaynet数据集¶
- 数据来源:https://github.com/ibm-aur-nlp/PubLayNet
- 数据简介:publaynet数据集的训练集合中包含35万张图像,验证集合中包含1.1万张图像。总共包含5个类别,分别是:
text, title, list, table, figure
。部分图像以及标注框可视化如下所示。
data:image/s3,"s3://crabby-images/902da/902da04bdf37ad24615e7ec11bfb9e9b46493a9e" alt=""
data:image/s3,"s3://crabby-images/91097/910975740a379f2a8bccef277d2a61fb56d05a66" alt=""
- 下载地址:https://developer.ibm.com/exchanges/data/all/publaynet/
- 说明:使用该数据集时,需要遵守CDLA-Permissive协议。
2、CDLA数据集¶
- 数据来源:https://github.com/buptlihang/CDLA
- 数据简介:CDLA据集的训练集合中包含5000张图像,验证集合中包含1000张图像。总共包含10个类别,分别是:
Text, Title, Figure, Figure caption, Table, Table caption, Header, Footer, Reference, Equation
。部分图像以及标注框可视化如下所示。
data:image/s3,"s3://crabby-images/07f67/07f67509b628504b8dc4b797276696e8ec982f2f" alt=""
data:image/s3,"s3://crabby-images/e44f5/e44f504f9a70a698460febe71b32cacccfd69c1e" alt=""
- 下载地址:https://github.com/buptlihang/CDLA
- 说明:基于PaddleDetection套件,在该数据集上训练目标检测模型时,在转换label时,需要将
label.txt
中的__ignore__
与_background_
去除。
3、TableBank数据集¶
- 数据来源:https://doc-analysis.github.io/tablebank-page/index.html
- 数据简介:TableBank数据集包含Latex(训练集187199张,验证集7265张,测试集5719张)与Word(训练集73383张,验证集2735张,测试集2281张)两种类别的文档。仅包含
Table
1个类别。部分图像以及标注框可视化如下所示。
data:image/s3,"s3://crabby-images/73f0f/73f0f9c84a2f4081db1bb9a4853a9fb4af6c292b" alt=""
data:image/s3,"s3://crabby-images/af7de/af7de22b7e3318e87443b53d75030f21c1f907f9" alt=""
- 下载地址:https://doc-analysis.github.io/tablebank-page/index.html
- 说明:使用该数据集时,需要遵守Apache-2.0协议。