教程 2: 准备数据集¶
MMSelfSup 支持多个数据集。请遵循相应的数据准备指南。建议将您的数据集根目录软链接到 $MMSELFSUP/data
。如果您的文件夹结构不同,您可能需要更改配置文件中的相应路径。
mmselfsup
├── mmselfsup
├── tools
├── configs
├── docs
├── data
│ ├── imagenet
│ │ ├── meta
│ │ ├── train
│ │ ├── val
│ ├── places205
│ │ ├── meta
│ │ ├── train
│ │ ├── val
│ ├── inaturalist2018
│ │ ├── meta
│ │ ├── train
│ │ ├── val
│ ├── VOCdevkit
│ │ ├── VOC2007
│ ├── cifar
│ │ ├── cifar-10-batches-py
准备 ImageNet 数据集¶
对于 ImageNet,它有多个版本,但最常用的是 ILSVRC 2012。可以通过以下步骤得到:
准备 iNaturalist2018 数据集¶
对于 iNaturalist2018,您需要:
从 下载页面 下载训练集和验证集图像及标注
解压下载的文件
使用脚本
tools/data_converters/convert_inaturalist.py
将原来的 json 标注格式转换为列表格式
准备 PASCAL VOC 数据集¶
假设您通常将数据集存储在 $YOUR_DATA_ROOT
中。下面的命令会自动将 PASCAL VOC 2007 下载到 $YOUR_DATA_ROOT
中,准备好所需的文件,在 $MMSELFSUP
下创建一个文件夹 data
,并制作一个软链接 VOCdevkit
。
bash tools/dataset_converters/prepare_voc07_cls.sh $YOUR_DATA_ROOT
准备 CIFAR10 数据集¶
MMSelfSup
使用由 MMClassification
实现的CIFAR10
。此外,MMClassification
支持自动下载 CIFAR10
数据集,您只需在 data_root
字段中指定下载文件夹即可。 并且通过指定 test_mode=False
/ test_mode=True
来使用训练数据集或测试数据集。对于更多细节,请参考 MMClassification
中的文档。
准备检测和分割数据集¶
检测¶
您可以参考 mmdetection 来准备 COCO,VOC2007 和 VOC2012 检测数据集。
分割¶
您可以参考 mmsegmentation 来准备 VOC2012AUG 和 Cityscapes 分割数据集。