TFDS fournit une collection d'ensembles de données prêts à l'emploi à utiliser avec TensorFlow, Jax et d'autres frameworks d'apprentissage automatique.

Il gère le téléchargement et la préparation des données de manière déterministe et la construction d'un tf.data.Dataset (ou np.array ).


TFDS existe en deux packages :

  • pip install tensorflow-datasets : La version stable, publiée tous les quelques mois.
  • pip install tfds-nightly : Sorti tous les jours, contient les dernières versions des jeux de données.

Ce colab utilise tfds-nightly :

pip install -q tfds-nightly tensorflow matplotlib
import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf

import tensorflow_datasets as tfds

Trouver les ensembles de données disponibles

Tous les générateurs d'ensembles de données sont une sous-classe de tfds.core.DatasetBuilder . Pour obtenir la liste des builders disponibles, utilisez tfds.list_builders() ou consultez notre catalogue .


Charger un jeu de données


Le moyen le plus simple de charger un jeu de données est tfds.load . Ce sera:

  1. Téléchargez les données et enregistrez-les sous forme de fichiers tfrecord .
  2. Chargez le tfrecord et créez le tf.data.Dataset .
ds = tfds.load('mnist', split='train', shuffle_files=True)
assert isinstance(ds, tf.data.Dataset)
Quelques arguments communs :

  • split= : Quel split lire (par exemple 'train' , ['train', 'test'] , 'train[80%:]' ,...). Consultez notre guide de l'API fractionnée .
  • shuffle_files= : contrôle s'il faut mélanger les fichiers entre chaque époque (TFDS stocke les grands ensembles de données dans plusieurs fichiers plus petits).
  • data_dir= : emplacement où l'ensemble de données est enregistré (par défaut ~/tensorflow_datasets/ )
  • with_info=True : renvoie le tfds.core.DatasetInfo contenant les métadonnées du jeu de données
  • download=False : Désactiver le téléchargement


tfds.load est un wrapper fin autour de tfds.core.DatasetBuilder . Vous pouvez obtenir le même résultat à l'aide de l'API tfds.core.DatasetBuilder :

builder = tfds.builder('mnist')
# 1. Create the tfrecord files (no-op if already exists)
# 2. Load the `tf.data.Dataset`
= builder.as_dataset(split='train', shuffle_files=True)
tfds build interface de ligne de commande

Si vous souhaitez générer un jeu de données spécifique, vous pouvez utiliser la ligne de commande tfds . Par example:

tfds build mnist

Voir la doc pour les drapeaux disponibles.

Itérer sur un jeu de données

Comme dict

Par défaut, l'objet tf.data.Dataset contient un dict de tf.Tensor s :

ds = tfds.load('mnist', split='train')
= ds.take(1)  # Only take a single example

for example in ds:  # example is `{'image': tf.Tensor, 'label': tf.Tensor}`
= example["image"]
= example["label"]
print(image.shape, label)
['image', 'label']
(28, 28, 1) tf.Tensor(4, shape=(), dtype=int64)
Pour connaître les noms et la structure des clés dict , consultez la documentation du jeu de données dans notre catalogue . Par exemple : documentation mnist .

Comme tuple ( as_supervised=True )

En utilisant as_supervised=True , vous pouvez obtenir un tuple (features, label) à la place pour les ensembles de données supervisés.

ds = tfds.load('mnist', split='train', as_supervised=True)
= ds.take(1)

for image, label in ds:  # example is (image, label)
print(image.shape, label)
(28, 28, 1) tf.Tensor(4, shape=(), dtype=int64)
Comme numpy ( tfds.as_numpy )

Utilise tfds.as_numpy pour convertir :

  • tf.Tensor -> np.array
  • tf.data.Dataset -> Iterator[Tree[np.array]] ( Tree peut être arbitrairement imbriqué Dict , Tuple )
ds = tfds.load('mnist', split='train', as_supervised=True)
= ds.take(1)

for image, label in tfds.as_numpy(ds):
print(type(image), type(label), label)
<class 'numpy.ndarray'> <class 'numpy.int64'> 4
En lot tf.Tensor ( batch_size=-1 )

En utilisant batch_size=-1 , vous pouvez charger l'ensemble de données complet en un seul lot.

Ceci peut être combiné avec as_supervised=True et tfds.as_numpy pour obtenir les données comme (np.array, np.array) :

image, label = tfds.as_numpy(tfds.load(

print(type(image), image.shape)
<class 'numpy.ndarray'> (10000, 28, 28, 1)

Veillez à ce que votre jeu de données puisse tenir en mémoire et à ce que tous les exemples aient la même forme.

Comparez vos ensembles de données

L'analyse comparative d'un jeu de données est un simple appel à tfds.benchmark sur n'importe quel itérable (par exemple tf.data.Dataset , tfds.as_numpy ,...).

ds = tfds.load('mnist', split='train')
= ds.batch(32).prefetch(1)

.benchmark(ds, batch_size=32)
.benchmark(ds, batch_size=32)  # Second epoch much faster due to auto-caching
************ Summary ************

Examples/sec (First included) 42295.82 ex/sec (total: 60000 ex, 1.42 sec)
Examples/sec (First only) 131.50 ex/sec (total: 32 ex, 0.24 sec)
Examples/sec (First excluded) 51026.08 ex/sec (total: 59968 ex, 1.18 sec)

************ Summary ************

Examples/sec (First included) 204278.25 ex/sec (total: 60000 ex, 0.29 sec)
Examples/sec (First only) 1444.72 ex/sec (total: 32 ex, 0.02 sec)
Examples/sec (First excluded) 220821.83 ex/sec (total: 59968 ex, 0.27 sec)
  • N'oubliez pas de normaliser les résultats par taille de lot avec le batch_size= kwarg.
  • Dans le résumé, le premier lot de préchauffage est séparé des autres pour capturer le temps de configuration supplémentaire de tf.data.Dataset (par exemple, l'initialisation des tampons,...).
  • Remarquez comment la deuxième itération est beaucoup plus rapide grâce à la mise en cache automatique TFDS .
  • tfds.benchmark renvoie un tfds.core.BenchmarkResult qui peut être inspecté pour une analyse plus approfondie.

Créer un pipeline de bout en bout

Pour aller plus loin, vous pouvez regarder :



Les objets tf.data.Dataset peuvent être convertis en pandas.DataFrame avec tfds.as_dataframe pour être visualisés sur Colab .

  • Ajoutez tfds.core.DatasetInfo comme deuxième argument de tfds.as_dataframe pour visualiser les images, l'audio, les textes, les vidéos,...
  • Utilisez ds.take(x) pour n'afficher que les x premiers exemples. pandas.DataFrame chargera l'ensemble de données complet en mémoire et peut être très coûteux à afficher.
ds, info = tfds.load('mnist', split='train', with_info=True)

.as_dataframe(ds.take(4), info)
tfds.show_examples renvoie un matplotlib.figure.Figure (seuls les jeux de données d'image sont désormais pris en charge) :

ds, info = tfds.load('mnist', split='train', with_info=True)

= tfds.show_examples(ds, info)
Accéder aux métadonnées du jeu de données

Tous les générateurs incluent un objet tfds.core.DatasetInfo contenant les métadonnées de l'ensemble de données.

Il est accessible via :

ds, info = tfds.load('mnist', with_info=True)
builder = tfds.builder('mnist')
= builder.info

Les informations sur le jeu de données contiennent des informations supplémentaires sur le jeu de données (version, citation, page d'accueil, description,...).

    The MNIST database of handwritten digits.
    download_size=11.06 MiB,
    dataset_size=21.00 MiB,
        'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
    supervised_keys=('image', 'label'),
        'test': <SplitInfo num_examples=10000, num_shards=1>,
        'train': <SplitInfo num_examples=60000, num_shards=1>,
      title={MNIST handwritten digit database},
      author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
      journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},

Comporte des métadonnées (noms d'étiquettes, forme d'image,...)

Accédez au tfds.features.FeatureDict :

    'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),

Nombre de classes, noms d'étiquette :

print(info.features["label"].int2str(7))  # Human readable version (8 -> 'cat')
['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

Formes, types :

{'image': (28, 28, 1), 'label': ()}
{'image': tf.uint8, 'label': tf.int64}
(28, 28, 1)
<dtype: 'uint8'>

Métadonnées fractionnées (par exemple, noms fractionnés, nombre d'exemples, ...)

Accédez au tfds.core.SplitDict :

{'test': <SplitInfo num_examples=10000, num_shards=1>, 'train': <SplitInfo num_examples=60000, num_shards=1>}

Fractionnements disponibles :

['test', 'train']

Obtenir des informations sur la répartition individuelle :


Cela fonctionne également avec l'API subsplit :

[FileInstruction(filename='gs://tensorflow-datasets/datasets/mnist/3.0.1/mnist-train.tfrecord-00000-of-00001', skip=9000, take=36000, num_examples=36000)]


Téléchargement manuel (si le téléchargement échoue)

Si le téléchargement échoue pour une raison quelconque (par exemple hors ligne,...). Vous pouvez toujours télécharger manuellement les données vous-même et les placer dans le manual_dir (par défaut ~/tensorflow_datasets/download/manual/ .

Pour savoir quelles URL télécharger, consultez :

Correction NonMatchingChecksumError

TFDS assure le déterminisme en validant les sommes de contrôle des URL téléchargées. Si NonMatchingChecksumError est déclenché, cela peut indiquer :

  • Le site Web peut être en panne (par exemple 503 status code ). Veuillez vérifier l'url.
  • Pour les URL Google Drive, réessayez plus tard, car Drive rejette parfois les téléchargements lorsque trop de personnes accèdent à la même URL. Voir le bogue
  • Les fichiers d'ensembles de données d'origine ont peut-être été mis à jour. Dans ce cas, le générateur de jeu de données TFDS doit être mis à jour. Veuillez ouvrir un nouveau problème Github ou PR :
    • Enregistrez les nouvelles sommes de contrôle avec tfds build --register_checksums
    • Éventuellement, mettez à jour le code de génération du jeu de données.
    • Mettre à jour l'ensemble de données VERSION
    • Mettre à jour l'ensemble de données RELEASE_NOTES : Qu'est-ce qui a provoqué le changement des sommes de contrôle ? Certains exemples ont-ils changé ?
    • Assurez-vous que l'ensemble de données peut toujours être créé.
    • Envoyez-nous un PR


Si vous utilisez des ensembles de tensorflow-datasets pour un article, veuillez inclure la citation suivante, en plus de toute citation spécifique aux ensembles de données utilisés (qui peuvent être trouvées dans le catalogue des ensembles de données ).

