টেনসরফ্লো ডেটাসেট

TFDS TensorFlow, Jax এবং অন্যান্য মেশিন লার্নিং ফ্রেমওয়ার্কের সাথে ব্যবহারের জন্য রেডি-টু-ব্যবহারের ডেটাসেটের একটি সংগ্রহ প্রদান করে।

এটি নির্ধারকভাবে ডেটা ডাউনলোড এবং প্রস্তুত করা এবং একটি tf.data.Dataset (বা np.array ) তৈরি করা পরিচালনা করে।


TFDS দুটি প্যাকেজে বিদ্যমান:

  • pip install tensorflow-datasets : স্থিতিশীল সংস্করণ, প্রতি কয়েক মাসে প্রকাশিত হয়।
  • pip install tfds-nightly : প্রতিদিন রিলিজ হয়, এতে ডেটাসেটের শেষ সংস্করণ থাকে।

এই কোল্যাব tfds-nightly ব্যবহার করে:

pip install -q tfds-nightly tensorflow matplotlib
import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf

import tensorflow_datasets as tfds

উপলব্ধ ডেটাসেট খুঁজুন

সমস্ত ডেটাসেট নির্মাতারা tfds.core.DatasetBuilder এর সাবক্লাস। উপলব্ধ নির্মাতাদের তালিকা পেতে, tfds.list_builders() ব্যবহার করুন বা আমাদের ক্যাটালগ দেখুন।


একটি ডেটাসেট লোড করুন


একটি ডেটাসেট লোড করার সবচেয়ে সহজ উপায় হল tfds.load । এটা হবে:

  1. ডেটা ডাউনলোড করুন এবং এটিকে tfrecord ফাইল হিসাবে সংরক্ষণ করুন।
  2. tf.data.Dataset লোড করুন এবং tfrecord তৈরি করুন।
ds = tfds.load('mnist', split='train', shuffle_files=True)
assert isinstance(ds, tf.data.Dataset)
কিছু সাধারণ যুক্তি:

  • split= : কোন বিভক্ত পড়তে হবে (যেমন 'train' , ['train', 'test'] , 'train[80%:]' ,...)। আমাদের বিভক্ত API গাইড দেখুন।
  • shuffle_files= : প্রতিটি যুগের মধ্যে ফাইলগুলিকে এলোমেলো করতে হবে কিনা তা নিয়ন্ত্রণ করুন (TFDS একাধিক ছোট ফাইলে বড় ডেটাসেট সঞ্চয় করে)।
  • data_dir= : অবস্থান যেখানে ডেটাসেট সংরক্ষিত হয় ( ~/tensorflow_datasets/ ডিফল্ট )
  • with_info=True : ডেটাসেট মেটাডেটা ধারণকারী tfds.core.DatasetInfo করে
  • download=False : ডাউনলোড অক্ষম করুন


tfds.load হল tfds.core.DatasetBuilder এর চারপাশে একটি পাতলা মোড়ক। আপনি tfds.core.DatasetBuilder API ব্যবহার করে একই আউটপুট পেতে পারেন:

builder = tfds.builder('mnist')
# 1. Create the tfrecord files (no-op if already exists)
# 2. Load the `tf.data.Dataset`
= builder.as_dataset(split='train', shuffle_files=True)
<_OptionsDataset element_spec={'image': TensorSpec(shape=(28, 28, 1), dtype=tf.uint8, name=None), 'label': TensorSpec(shape=(), dtype=tf.int64, name=None)}>

tfds build CLI তৈরি করে

আপনি যদি একটি নির্দিষ্ট ডেটাসেট তৈরি করতে চান, আপনি tfds কমান্ড লাইন ব্যবহার করতে পারেন। উদাহরণ স্বরূপ:

tfds build mnist

উপলব্ধ পতাকা জন্য ডক দেখুন.

একটি ডেটাসেটের উপর পুনরাবৃত্তি করুন

ডিক্ট হিসাবে

ডিফল্টরূপে, tf.data.Dataset অবজেক্টে dict s এর একটি tf.Tensor থাকে:

ds = tfds.load('mnist', split='train')
= ds.take(1)  # Only take a single example

for example in ds:  # example is `{'image': tf.Tensor, 'label': tf.Tensor}`
= example["image"]
= example["label"]
print(image.shape, label)
['image', 'label']
(28, 28, 1) tf.Tensor(4, shape=(), dtype=int64)
dict কী নাম এবং গঠন খুঁজে বের করতে, আমাদের ক্যাটালগে ডেটাসেট ডকুমেন্টেশন দেখুন। উদাহরণস্বরূপ: mnist ডকুমেন্টেশন

টিপল হিসাবে ( as_supervised=True )

as_supervised=True ব্যবহার করে, আপনি তত্ত্বাবধানে থাকা ডেটাসেটের পরিবর্তে একটি টিপল (features, label) পেতে পারেন।

ds = tfds.load('mnist', split='train', as_supervised=True)
= ds.take(1)

for image, label in ds:  # example is (image, label)
print(image.shape, label)
(28, 28, 1) tf.Tensor(4, shape=(), dtype=int64)
numpy হিসাবে ( tfds.as_numpy )

রূপান্তর করতে tfds.as_numpy ব্যবহার করে:

  • tf.Tensor -> np.array
  • tf.data.Dataset -> Iterator[Tree[np.array]] ( Tree হতে পারে নির্বিচারে নেস্টেড Dict , Tuple )
ds = tfds.load('mnist', split='train', as_supervised=True)
= ds.take(1)

for image, label in tfds.as_numpy(ds):
print(type(image), type(label), label)
<class 'numpy.ndarray'> <class 'numpy.int64'> 4
ব্যাচড tf.টেনসর হিসাবে ( batch_size=-1 )

batch_size=-1 ব্যবহার করে, আপনি একটি একক ব্যাচে সম্পূর্ণ ডেটাসেট লোড করতে পারেন।

এটি as_supervised=True এবং tfds.as_numpy এর সাথে একত্রিত করা যেতে পারে (np.array, np.array) হিসাবে ডেটা পেতে:

image, label = tfds.as_numpy(tfds.load(

print(type(image), image.shape)
<class 'numpy.ndarray'> (10000, 28, 28, 1)

সতর্কতা অবলম্বন করুন যে আপনার ডেটাসেট মেমরিতে ফিট করতে পারে এবং সমস্ত উদাহরণের আকৃতি একই রকম।

আপনার ডেটাসেট বেঞ্চমার্ক করুন

একটি ডেটাসেটের বেঞ্চমার্কিং হল যেকোনো পুনরাবৃত্তিযোগ্য (যেমন tf.data.Dataset , tfds.as_numpy ,...) একটি সাধারণ tfds.benchmark কল।

ds = tfds.load('mnist', split='train')
= ds.batch(32).prefetch(1)

.benchmark(ds, batch_size=32)
.benchmark(ds, batch_size=32)  # Second epoch much faster due to auto-caching
************ Summary ************

Examples/sec (First included) 42295.82 ex/sec (total: 60000 ex, 1.42 sec)
Examples/sec (First only) 131.50 ex/sec (total: 32 ex, 0.24 sec)
Examples/sec (First excluded) 51026.08 ex/sec (total: 59968 ex, 1.18 sec)

************ Summary ************

Examples/sec (First included) 204278.25 ex/sec (total: 60000 ex, 0.29 sec)
Examples/sec (First only) 1444.72 ex/sec (total: 32 ex, 0.02 sec)
Examples/sec (First excluded) 220821.83 ex/sec (total: 59968 ex, 0.27 sec)
  • batch_size= কোয়ার্গ দিয়ে ব্যাচের আকার প্রতি ফলাফল স্বাভাবিক করতে ভুলবেন না।
  • সংক্ষিপ্তসারে, প্রথম ওয়ার্মআপ ব্যাচটিকে অন্য ব্যাচ থেকে আলাদা করা হয়েছে tf.data.Dataset অতিরিক্ত সেটআপ টাইম (যেমন বাফার ইনিশিয়ালাইজেশন,...) ক্যাপচার করতে।
  • TFDS স্বয়ংক্রিয়-ক্যাশিংয়ের কারণে দ্বিতীয় পুনরাবৃত্তিটি কীভাবে আরও দ্রুত হয় তা লক্ষ্য করুন।
  • tfds.benchmark একটি tfds.core.BenchmarkResult যা আরও বিশ্লেষণের জন্য পরিদর্শন করা যেতে পারে।

এন্ড-টু-এন্ড পাইপলাইন তৈরি করুন

আরও যেতে, আপনি দেখতে পারেন:



tf.data.Dataset অবজেক্টগুলিকে Colab- এ দেখার জন্য pandas.DataFrame দিয়ে tfds.as_dataframe এ রূপান্তর করা যেতে পারে।

  • ছবি, অডিও, টেক্সট, ভিডিও,... দেখতে tfds.as_dataframe এর দ্বিতীয় আর্গুমেন্ট হিসেবে tfds.core.DatasetInfo যোগ করুন।
  • শুধুমাত্র প্রথম x উদাহরণ প্রদর্শন করতে ds.take(x) ব্যবহার করুন। pandas.DataFrame সম্পূর্ণ ডেটাসেট ইন-মেমরি লোড করবে এবং প্রদর্শন করা খুব ব্যয়বহুল হতে পারে।
ds, info = tfds.load('mnist', split='train', with_info=True)

.as_dataframe(ds.take(4), info)
tfds.show_examples একটি matplotlib.figure.Figure প্রদান করে (শুধুমাত্র ইমেজ ডেটাসেট এখন সমর্থিত):

ds, info = tfds.load('mnist', split='train', with_info=True)

= tfds.show_examples(ds, info)
ডেটাসেট মেটাডেটা অ্যাক্সেস করুন

সমস্ত নির্মাতা একটি tfds.core.DatasetInfo অবজেক্ট অন্তর্ভুক্ত করে যাতে ডেটাসেট মেটাডেটা থাকে।

এটি এর মাধ্যমে অ্যাক্সেস করা যেতে পারে:

ds, info = tfds.load('mnist', with_info=True)
builder = tfds.builder('mnist')
= builder.info

ডেটাসেট তথ্যে ডেটাসেট সম্পর্কে অতিরিক্ত তথ্য রয়েছে (সংস্করণ, উদ্ধৃতি, হোমপেজ, বিবরণ,...)।

    The MNIST database of handwritten digits.
    download_size=11.06 MiB,
    dataset_size=21.00 MiB,
        'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
    supervised_keys=('image', 'label'),
        'test': <SplitInfo num_examples=10000, num_shards=1>,
        'train': <SplitInfo num_examples=60000, num_shards=1>,
      title={MNIST handwritten digit database},
      author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
      journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},

বৈশিষ্ট্য মেটাডেটা (লেবেল নাম, ছবির আকৃতি,...)

tfds.features.FeatureDict অ্যাক্সেস করুন:

    'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),

ক্লাসের সংখ্যা, লেবেলের নাম:

print(info.features["label"].int2str(7))  # Human readable version (8 -> 'cat')
['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

আকার, dtypes:

{'image': (28, 28, 1), 'label': ()}
{'image': tf.uint8, 'label': tf.int64}
(28, 28, 1)
<dtype: 'uint8'>

বিভক্ত মেটাডেটা (যেমন বিভক্ত নাম, উদাহরণের সংখ্যা,...)

tfds.core.SplitDict অ্যাক্সেস করুন:

{'test': <SplitInfo num_examples=10000, num_shards=1>, 'train': <SplitInfo num_examples=60000, num_shards=1>}

উপলব্ধ বিভাজন:

['test', 'train']

স্বতন্ত্র বিভাজন সম্পর্কে তথ্য পান:


এটি সাবস্প্লিট API এর সাথেও কাজ করে:

[FileInstruction(filename='gs://tensorflow-datasets/datasets/mnist/3.0.1/mnist-train.tfrecord-00000-of-00001', skip=9000, take=36000, num_examples=36000)]

সমস্যা সমাধান

ম্যানুয়াল ডাউনলোড (যদি ডাউনলোড ব্যর্থ হয়)

যদি কোনো কারণে ডাউনলোড ব্যর্থ হয় (যেমন অফলাইন,...)। আপনি সর্বদা নিজে নিজে ডেটা ডাউনলোড করতে পারেন এবং ম্যানুয়াল_ডির (~/ manual_dir ~/tensorflow_datasets/download/manual/ এ ডিফল্ট) এ রাখতে পারেন।

কোন url ডাউনলোড করতে হবে তা খুঁজে বের করতে, দেখুন:


TFDS ডাউনলোড করা url-এর চেকসাম যাচাই করে নির্ধারকতা নিশ্চিত করে। যদি NonMatchingChecksumError উত্থাপিত হয়, তাহলে ইঙ্গিত হতে পারে:

  • ওয়েবসাইট ডাউন হতে পারে (যেমন 503 status code )। ইউআরএল চেক করুন.
  • Google ড্রাইভ URLগুলির জন্য, পরে আবার চেষ্টা করুন কারণ ড্রাইভ কখনও কখনও ডাউনলোডগুলিকে প্রত্যাখ্যান করে যখন অনেক লোক একই URL অ্যাক্সেস করে৷ বাগ দেখুন
  • মূল ডেটাসেট ফাইল আপডেট করা হতে পারে. এই ক্ষেত্রে TFDS ডেটাসেট নির্মাতা আপডেট করা উচিত। অনুগ্রহ করে একটি নতুন Github সমস্যা বা PR খুলুন:
    • tfds build --register_checksums দিয়ে নতুন চেকসাম নিবন্ধন করুন
    • অবশেষে ডেটাসেট জেনারেশন কোড আপডেট করুন।
    • ডেটাসেট VERSION আপডেট করুন
    • ডেটাসেট আপডেট করুন RELEASE_NOTES : চেকসাম পরিবর্তনের কারণ কী? কিছু উদাহরণ কি পরিবর্তিত হয়েছে?
    • নিশ্চিত করুন যে ডেটাসেট এখনও তৈরি করা যেতে পারে।
    • আমাদের একটি PR পাঠান


আপনি যদি একটি কাগজের জন্য tensorflow-datasets ব্যবহার করে থাকেন, তাহলে অনুগ্রহ করে নিম্নলিখিত উদ্ধৃতিগুলি অন্তর্ভুক্ত করুন, ব্যবহৃত ডেটাসেটের জন্য নির্দিষ্ট কোনো উদ্ধৃতি ছাড়াও (যা ডেটাসেট ক্যাটালগে পাওয়া যাবে)।

= { {TensorFlow Datasets}, A collection of ready-to-use datasets},
= {\url{https://www.tensorflow.org/datasets} },