مجموعات بيانات TensorFlow

يوفر TFDS مجموعة من مجموعات البيانات الجاهزة للاستخدام مع TensorFlow و Jax وأطر عمل التعلم الآلي الأخرى.

يتعامل مع تنزيل البيانات وإعدادها بشكل حاسم وإنشاء tf.data.Dataset (أو np.array ).


TFDS موجود في حزمتين:

  • pip install tensorflow-datasets : الإصدار الثابت ، يتم إصداره كل بضعة أشهر.
  • pip install tfds-nightly : يتم إصداره كل يوم ويحتوي على الإصدارات الأخيرة من مجموعات البيانات.

يستخدم هذا الكولاب tfds-nightly :

pip install -q tfds-nightly tensorflow matplotlib
import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf

import tensorflow_datasets as tfds

البحث عن مجموعات البيانات المتاحة

جميع منشئي مجموعات البيانات هم فئة فرعية من tfds.core.DatasetBuilder . للحصول على قائمة البناة المتاحين ، استخدم tfds.list_builders() أو انظر إلى الكتالوج الخاص بنا.


قم بتحميل مجموعة بيانات


أسهل طريقة لتحميل مجموعة البيانات هي tfds.load . سوف تكون:

  1. قم بتنزيل البيانات وحفظها كملفات tfrecord .
  2. قم بتحميل tfrecord وأنشئ ملف tf.data.Dataset .
ds = tfds.load('mnist', split='train', shuffle_files=True)
assert isinstance(ds, tf.data.Dataset)
<_OptionsDataset element_spec={'image': TensorSpec(shape=(28, 28, 1), dtype=tf.uint8, name=None), 'label': TensorSpec(shape=(), dtype=tf.int64, name=None)}>
2022-02-07 04:07:40.542243: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected

بعض الحجج الشائعة:

  • split= : أي تقسيم يتم قراءته (على سبيل المثال 'train' ، ['train', 'test'] ، 'train[80%:]' ، ...). انظر دليل تقسيم API لدينا.
  • shuffle_files= : تحكم في ترتيب الملفات عشوائيًا بين كل حقبة (تخزن TFDS مجموعات بيانات كبيرة في ملفات متعددة أصغر حجمًا).
  • data_dir= : الموقع حيث تم حفظ مجموعة البيانات (الإعدادات الافتراضية ~/tensorflow_datasets/ )
  • with_info=True : إرجاع tfds.core.DatasetInfo الذي يحتوي على البيانات الوصفية لمجموعة البيانات
  • download=False : تعطيل التنزيل


tfds.load عبارة عن غلاف رفيع حول tfds.core.DatasetBuilder . يمكنك الحصول على نفس الإخراج باستخدام tfds.core.DatasetBuilder API:

builder = tfds.builder('mnist')
# 1. Create the tfrecord files (no-op if already exists)
# 2. Load the `tf.data.Dataset`
= builder.as_dataset(split='train', shuffle_files=True)
<_OptionsDataset element_spec={'image': TensorSpec(shape=(28, 28, 1), dtype=tf.uint8, name=None), 'label': TensorSpec(shape=(), dtype=tf.int64, name=None)}>

tfds build CLI

إذا كنت ترغب في إنشاء مجموعة بيانات محددة ، يمكنك استخدام سطر أوامر tfds . فمثلا:

tfds build mnist

راجع المستند للحصول على العلامات المتاحة.

كرر عبر مجموعة بيانات

كما ديكت

بشكل افتراضي ، يحتوي كائن tf.data.Dataset على tf.Tensor dict :

ds = tfds.load('mnist', split='train')
= ds.take(1)  # Only take a single example

for example in ds:  # example is `{'image': tf.Tensor, 'label': tf.Tensor}`
= example["image"]
= example["label"]
print(image.shape, label)
['image', 'label']
(28, 28, 1) tf.Tensor(4, shape=(), dtype=int64)
2022-02-07 04:07:41.932638: W tensorflow/core/kernels/data/cache_dataset_ops.cc:768] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.

لمعرفة أسماء وبنية مفتاح dict ، انظر إلى وثائق مجموعة البيانات في الكتالوج الخاص بنا . على سبيل المثال: وثائق mnist .

كـ tuple ( as_supervised=True )

باستخدام as_supervised=True ، يمكنك الحصول على مجموعة (features, label) بدلاً من ذلك لمجموعات البيانات الخاضعة للإشراف.

ds = tfds.load('mnist', split='train', as_supervised=True)
= ds.take(1)

for image, label in ds:  # example is (image, label)
print(image.shape, label)
(28, 28, 1) tf.Tensor(4, shape=(), dtype=int64)
2022-02-07 04:07:42.593594: W tensorflow/core/kernels/data/cache_dataset_ops.cc:768] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.

كما numpy ( tfds.as_numpy )

يستخدم tfds.as_numpy للتحويل:

  • tf.Tensor -> np.array
  • tf.data.Dataset -> Iterator[Tree[np.array]] (يمكن أن تكون Tree متداخلة بشكل عشوائي Dict ، Tuple )
ds = tfds.load('mnist', split='train', as_supervised=True)
= ds.take(1)

for image, label in tfds.as_numpy(ds):
print(type(image), type(label), label)
<class 'numpy.ndarray'> <class 'numpy.int64'> 4
2022-02-07 04:07:43.220027: W tensorflow/core/kernels/data/cache_dataset_ops.cc:768] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.

كدفعة tf.Tensor ( batch_size=-1 )

باستخدام batch_size=-1 ، يمكنك تحميل مجموعة البيانات الكاملة في دفعة واحدة.

يمكن دمج هذا مع as_supervised=True و tfds.as_numpy للحصول على البيانات كـ (np.array, np.array) :

image, label = tfds.as_numpy(tfds.load(

print(type(image), image.shape)
<class 'numpy.ndarray'> (10000, 28, 28, 1)

كن حذرًا من أن مجموعة البيانات الخاصة بك يمكن أن تتناسب مع الذاكرة ، وأن جميع الأمثلة لها نفس الشكل.

ضع معايير معيارية لمجموعات البيانات الخاصة بك

قياس مجموعة البيانات هو استدعاء tfds.benchmark بسيط على أي تكراري (مثل tf.data.Dataset ، tfds.as_numpy ، ...).

ds = tfds.load('mnist', split='train')
= ds.batch(32).prefetch(1)

.benchmark(ds, batch_size=32)
.benchmark(ds, batch_size=32)  # Second epoch much faster due to auto-caching
************ Summary ************

Examples/sec (First included) 42295.82 ex/sec (total: 60000 ex, 1.42 sec)
Examples/sec (First only) 131.50 ex/sec (total: 32 ex, 0.24 sec)
Examples/sec (First excluded) 51026.08 ex/sec (total: 59968 ex, 1.18 sec)

************ Summary ************

Examples/sec (First included) 204278.25 ex/sec (total: 60000 ex, 0.29 sec)
Examples/sec (First only) 1444.72 ex/sec (total: 32 ex, 0.02 sec)
Examples/sec (First excluded) 220821.83 ex/sec (total: 59968 ex, 0.27 sec)
  • لا تنس تسوية النتائج لكل حجم دفعة باستخدام batch_size= kwarg.
  • في الملخص ، يتم فصل دفعة الإحماء الأولى عن المجموعات الأخرى لالتقاط tf.data.Dataset وقت الإعداد الإضافي (مثل تهيئة المخازن المؤقتة ، ...).
  • لاحظ كيف أن التكرار الثاني أسرع بكثير بسبب التخزين المؤقت التلقائي لـ TFDS .
  • tfds.benchmark بإرجاع tfds.core.BenchmarkResult الذي يمكن فحصه لمزيد من التحليل.

بناء خط أنابيب من طرف إلى طرف

للمضي قدمًا ، يمكنك البحث عن:



يمكن تحويل كائنات tf.data.Dataset إلى pandas.DataFrame مع tfds.as_dataframe ليتم تصورها على Colab .

  • أضف tfds.core.DatasetInfo كوسيطة ثانية لـ tfds.as_dataframe لتصور الصور والصوت والنصوص ومقاطع الفيديو ...
  • استخدم ds.take(x) لعرض أمثلة x الأولى فقط. سيقوم pandas.DataFrame بتحميل مجموعة البيانات الكاملة في الذاكرة ، وقد يكون عرضه مكلفًا للغاية.
ds, info = tfds.load('mnist', split='train', with_info=True)

.as_dataframe(ds.take(4), info)
2022-02-07 04:07:47.001241: W tensorflow/core/kernels/data/cache_dataset_ops.cc:768] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.


tfds.show_examples بإرجاع matplotlib.figure.Figure (مجموعات بيانات الصورة فقط مدعومة الآن):

ds, info = tfds.load('mnist', split='train', with_info=True)

= tfds.show_examples(ds, info)
2022-02-07 04:07:48.083706: W tensorflow/core/kernels/data/cache_dataset_ops.cc:768] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.

بي إن جي

الوصول إلى البيانات الوصفية لمجموعة البيانات

تتضمن جميع المنشئات كائن tfds.core.DatasetInfo يحتوي على البيانات الوصفية لمجموعة البيانات.

يمكن الوصول إليه من خلال:

  • واجهة برمجة تطبيقات tfds.load :
ds, info = tfds.load('mnist', with_info=True)
builder = tfds.builder('mnist')
= builder.info

تحتوي معلومات مجموعة البيانات على معلومات إضافية حول مجموعة البيانات (الإصدار ، الاقتباس ، الصفحة الرئيسية ، الوصف ، ...).

    The MNIST database of handwritten digits.
    download_size=11.06 MiB,
    dataset_size=21.00 MiB,
        'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
    supervised_keys=('image', 'label'),
        'test': <SplitInfo num_examples=10000, num_shards=1>,
        'train': <SplitInfo num_examples=60000, num_shards=1>,
      title={MNIST handwritten digit database},
      author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
      journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},

ميزات البيانات الوصفية (أسماء الملصقات ، شكل الصورة ، ...)

قم بالوصول إلى tfds.features.FeatureDict :

    'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),

عدد الفئات ، أسماء العلامات:

print(info.features["label"].int2str(7))  # Human readable version (8 -> 'cat')
['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

الأشكال والأنواع:

{'image': (28, 28, 1), 'label': ()}
{'image': tf.uint8, 'label': tf.int64}
(28, 28, 1)
<dtype: 'uint8'>

البيانات الوصفية المنقسمة (مثل الأسماء المقسمة ، وعدد الأمثلة ، ...)

قم بالوصول إلى tfds.core.SplitDict :

{'test': <SplitInfo num_examples=10000, num_shards=1>, 'train': <SplitInfo num_examples=60000, num_shards=1>}

الانقسامات المتاحة:

['test', 'train']

احصل على معلومات حول التقسيم الفردي:


يعمل أيضًا مع واجهة برمجة التطبيقات (API) الفرعية:

[FileInstruction(filename='gs://tensorflow-datasets/datasets/mnist/3.0.1/mnist-train.tfrecord-00000-of-00001', skip=9000, take=36000, num_examples=36000)]

استكشاف الأخطاء وإصلاحها

تنزيل يدوي (في حالة فشل التنزيل)

إذا فشل التنزيل لسبب ما (على سبيل المثال ، غير متصل بالإنترنت ، ...). يمكنك دائمًا تنزيل البيانات يدويًا بنفسك ووضعها في manual_dir (الإعدادات الافتراضية ~/tensorflow_datasets/download/manual/ .

لمعرفة عناوين url المراد تنزيلها ، انظر إلى:

إصلاح NonMatchingChecksumError

تضمن TFDS الحتمية من خلال التحقق من صحة المجاميع الاختبارية لعناوين url التي تم تنزيلها. إذا NonMatchingChecksumError ، فقد يشير إلى:

  • قد يكون موقع الويب معطلاً (مثل 503 status code ). يرجى التحقق من عنوان url.
  • بالنسبة إلى عناوين URL الخاصة بـ Google Drive ، حاول مرة أخرى لاحقًا لأن Drive يرفض أحيانًا التنزيلات عندما يصل عدد كبير جدًا من الأشخاص إلى نفس عنوان URL. انظر علة
  • ربما تم تحديث ملفات مجموعات البيانات الأصلية. في هذه الحالة ، يجب تحديث منشئ مجموعة بيانات TFDS. يرجى فتح إصدار جديد من Github أو PR:
    • سجل المجاميع الاختبارية الجديدة مع tfds build --register_checksums
    • حدِّث رمز إنشاء مجموعة البيانات في النهاية.
    • قم بتحديث مجموعة البيانات VERSION
    • قم بتحديث مجموعة البيانات RELEASE_NOTES : ما الذي تسبب في تغيير المجاميع الاختبارية؟ هل تغيرت بعض الأمثلة؟
    • تأكد من إمكانية إنشاء مجموعة البيانات.
    • أرسل لنا العلاقات العامة


إذا كنت تستخدم tensorflow-datasets لورقة ما ، فيرجى تضمين الاقتباس التالي ، بالإضافة إلى أي اقتباس خاص بمجموعات البيانات المستخدمة (والتي يمكن العثور عليها في كتالوج مجموعة البيانات ).

= { {TensorFlow Datasets}, A collection of ready-to-use datasets},
= {\url{https://www.tensorflow.org/datasets} },