contrôlée_noisy_web_labels

  • Descriptif :

Controlled Noisy Web Labels est une collection d'environ 212 000 URL vers des images dans lesquelles chaque image est soigneusement annotée par 3 à 5 professionnels de l'étiquetage par Google Cloud Data Labeling Service. À l'aide de ces annotations, il établit la première référence de bruit d'étiquette contrôlé dans le monde réel à partir du Web.

Nous fournissons les configurations Red Mini-ImageNet (bruit web réel) et Blue Mini-ImageNet :

Chaque configuration contient dix variantes avec dix niveaux de bruit p de 0% à 80%. L'ensemble de validation a des étiquettes propres et est partagé entre tous les ensembles d'apprentissage bruyants. Par conséquent, chaque configuration comporte les divisions suivantes :

  • train_00
  • train_05
  • train_10
  • train_15
  • train_20
  • train_30
  • train_40
  • train_50
  • train_60
  • train_80
  • validation

Les détails de la construction et de l'analyse des ensembles de données peuvent être trouvés dans l'article. Toutes les images sont redimensionnées à une résolution de 84x84.

  1. Téléchargez les répartitions et les annotations ici
  2. Extrayez dataset_no_images.zip vers dataset_no_images/.
  3. Téléchargez toutes les images de dataset_no_images/mini-imagenet-annotations.json dans un nouveau dossier nommé dataset_no_images/noisy_images/. Le nom du fichier de sortie doit correspondre à l'ID d'image fourni dans mini-imagenet-annotations.json. Par exemple, si "image/id": "5922767e5677aef4", l'image téléchargée doit être dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4.Inscrivez-vous sur https://image-net.org/download-images et téléchargez ILSVRC2012_img_train.tar et ILSVRC2012_img_val.tar.

La structure de répertoire résultante peut ensuite être traitée par TFDS :

  • dataset_no_images/
    • mini-imagenet/
    • nom_classe.txt
    • diviser/
      • blue_noise_nl_0.0
      • blue_noise_nl_0.1
      • ...
      • red_noise_nl_0.0
      • red_noise_nl_0.1
      • ...
      • clean_validation
    • mini-imagenet-annotations.json
  • ILSVRC2012_img_train.tar
  • ILSVRC2012_img_val.tar
  • images_bruyantes/

    • 5922767e5677aef4.jpg
  • Mise en cache automatique ( documentation ): Non

  • Structure des fonctionnalités :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_clean': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
identifiant Texte chaîne de caractères
image Image (Aucun, Aucun, 3) uint8
est propre Tenseur bourdonner
étiquette Étiquette de classe int64
@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

contrôlée_noisy_web_labels/mini_imagenet_red (configuration par défaut)

  • Taille du jeu de données : 1.19 GiB

  • Fractionnements :

Diviser Exemples
'train_00' 50 000
'train_05' 50 000
'train_10' 50 000
'train_15' 50 000
'train_20' 50 000
'train_30' 49 985
'train_40' 50 010
'train_50' 49 962
'train_60' 50 000
'train_80' 50 008
'validation' 5 000

Visualisation

contrôlée_noisy_web_labels/mini_imagenet_blue

  • Taille du jeu de données : 1.39 GiB

  • Fractionnements :

Diviser Exemples
'train_00' 60 000
'train_05' 60 000
'train_10' 60 000
'train_15' 60 000
'train_20' 60 000
'train_30' 60 000
'train_40' 60 000
'train_50' 60 000
'train_60' 60 000
'train_80' 60 000
'validation' 5 000

Visualisation