অভ্র ডেটাসেট API

TensorFlow.org এ দেখুন

Google Colab-এ চালান

GitHub-এ উৎস দেখুন

নোটবুক ডাউনলোড করুন

ওভারভিউ

অভ্র ডেটা সেটটি API- এর উদ্দেশ্য অভ্র যেমন TensorFlow মধ্যে স্থানীয়ভাবে ডেটা ফরম্যাট লোড হয় TensorFlow ডেটা সেটটি । অভ্র একটি ডেটা সিরিয়ালাইজেশন সিস্টেম যা প্রোটোকল বাফারের মতো। এটি Apache Hadoop-এ ব্যাপকভাবে ব্যবহৃত হয় যেখানে এটি ক্রমাগত ডেটার জন্য একটি ক্রমিক বিন্যাস এবং Hadoop নোডগুলির মধ্যে যোগাযোগের জন্য একটি তারের বিন্যাস উভয়ই প্রদান করতে পারে। অভ্র ডেটা একটি সারি-ভিত্তিক, কম্প্যাক্টেড বাইনারি ডেটা ফর্ম্যাট। এটি স্কিমার উপর নির্ভর করে যা একটি পৃথক JSON ফাইল হিসাবে সংরক্ষণ করা হয়। অভ্র বিন্যাস এবং স্কিমা ঘোষণার বৈশিষ্ট জন্য, পড়ুন দয়া কর্মকর্তা ম্যানুয়াল ।

সেটআপ প্যাকেজ

প্রয়োজনীয় tensorflow-io প্যাকেজ ইনস্টল করুন

pip install tensorflow-io

প্যাকেজ আমদানি করুন

import tensorflow as tf
import tensorflow_io as tfio

tf এবং tfio আমদানি বৈধ করুন

print("tensorflow-io version: {}".format(tfio.__version__))
print("tensorflow version: {}".format(tf.__version__))

tensorflow-io version: 0.18.0
tensorflow version: 2.5.0

ব্যবহার

ডেটাসেট অন্বেষণ করুন

এই টিউটোরিয়ালের উদ্দেশ্যে, আসুন অভ্র ডেটাসেটের নমুনা ডাউনলোড করি।

একটি নমুনা অভ্র ফাইল ডাউনলোড করুন:

curl -OL https://github.com/tensorflow/io/raw/master/docs/tutorials/avro/train.avro
ls -l train.avro

% Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   151  100   151    0     0   1268      0 --:--:-- --:--:-- --:--:--  1268
100   369  100   369    0     0   1255      0 --:--:-- --:--:-- --:--:--  1255
-rw-rw-r-- 1 kbuilder kokoro 369 May 25 22:23 train.avro

নমুনা Avro ফাইলের সংশ্লিষ্ট স্কিমা ফাইল ডাউনলোড করুন:

curl -OL https://github.com/tensorflow/io/raw/master/docs/tutorials/avro/train.avsc
ls -l train.avsc

% Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   151  100   151    0     0   1247      0 --:--:-- --:--:-- --:--:--  1247
100   271  100   271    0     0    780      0 --:--:-- --:--:-- --:--:--   780
-rw-rw-r-- 1 kbuilder kokoro 271 May 25 22:23 train.avsc

উপরের উদাহরণে, mnist ডেটাসেটের উপর ভিত্তি করে একটি টেস্টিং Avro ডেটাসেট তৈরি করা হয়েছে। TFRecord বিন্যাসে মূল mnist ডেটা সেটটি থেকে জেনারেট হওয়া মেমরি নামে ডেটা সেটটি । যাইহোক, ডেমো ডেটাসেট হিসাবে mnist ডেটাসেট অনেক বড়। সরলতার উদ্দেশ্যে, এর বেশিরভাগই ছাঁটাই করা হয়েছিল এবং প্রথম কয়েকটি রেকর্ড শুধুমাত্র রাখা হয়েছিল। তাছাড়া, অতিরিক্ত ছাঁটাইয়ের জন্য করা হয়েছিল image মূল mnist ডেটাসেটে ক্ষেত্র এবং এটিকে ম্যাপ features অভ্র মধ্যে ক্ষেত্র। তাই অভ্র ফাইল train.avro : 4 রেকর্ড, প্রতিটি যা 3 ক্ষেত্র করেছে features , যা কোন int, একটি অ্যারে label , কোন int বা নাল, এবং dataType , একটি enum। সঙ্কেতমুক্ত দেখতে train.avro (উল্লেখ্য মূল অভ্র তথ্য ফাইল মানুষের পাঠযোগ্য যেমন অভ্র একটি সন্নিবিষ্ট ফরম্যাট নয়):

অভ্র ফাইলটি পড়ার জন্য প্রয়োজনীয় প্যাকেজটি ইনস্টল করুন:

pip install avro

একটি মানব-পাঠযোগ্য বিন্যাসে একটি অভ্র ফাইল পড়তে এবং মুদ্রণ করতে:

from avro.io import DatumReader
from avro.datafile import DataFileReader

import json

def print_avro(avro_file, max_record_num=None):
    if max_record_num is not None and max_record_num <= 0:
        return

    with open(avro_file, 'rb') as avro_handler:
        reader = DataFileReader(avro_handler, DatumReader())
        record_count = 0
        for record in reader:
            record_count = record_count+1
            print(record)
            if max_record_num is not None and record_count == max_record_num:
               break

print_avro(avro_file='train.avro')

{'features': [0, 0, 0, 1, 4], 'label': None, 'dataType': 'TRAINING'}
{'features': [0, 0], 'label': 2, 'dataType': 'TRAINING'}
{'features': [0], 'label': 3, 'dataType': 'VALIDATION'}
{'features': [1], 'label': 4, 'dataType': 'VALIDATION'}

আর স্কিমা train.avro যার দ্বারা প্রতিনিধিত্ব করা হয় train.avsc একটি JSON- বিন্যস্ত ফাইল। দেখার জন্য train.avsc :

def print_schema(avro_schema_file):
    with open(avro_schema_file, 'r') as handle:
        parsed = json.load(handle)
    print(json.dumps(parsed, indent=4, sort_keys=True))

print_schema('train.avsc')

{
    "fields": [
        {
            "name": "features",
            "type": {
                "items": "int",
                "type": "array"
            }
        },
        {
            "name": "label",
            "type": [
                "int",
                "null"
            ]
        },
        {
            "name": "dataType",
            "type": {
                "name": "dataTypes",
                "symbols": [
                    "TRAINING",
                    "VALIDATION"
                ],
                "type": "enum"
            }
        }
    ],
    "name": "ImageDataset",
    "type": "record"
}

ডেটাসেট প্রস্তুত করুন

লোড train.avro অভ্র ডেটা সেটটি API- এর সাথে TensorFlow ডেটা সেটটি হিসাবে:

features = {
    'features[*]': tfio.experimental.columnar.VarLenFeatureWithRank(dtype=tf.int32),
    'label': tf.io.FixedLenFeature(shape=[], dtype=tf.int32, default_value=-100),
    'dataType': tf.io.FixedLenFeature(shape=[], dtype=tf.string)
}

schema = tf.io.gfile.GFile('train.avsc').read()

dataset = tfio.experimental.columnar.make_avro_record_dataset(file_pattern=['train.avro'],
                                                              reader_schema=schema,
                                                              features=features,
                                                              shuffle=False,
                                                              batch_size=3,
                                                              num_epochs=1)

for record in dataset:
    print(record['features[*]'])
    print(record['label'])
    print(record['dataType'])
    print("--------------------")

SparseTensor(indices=tf.Tensor(
[[0 0]
 [0 1]
 [0 2]
 [0 3]
 [0 4]
 [1 0]
 [1 1]
 [2 0]], shape=(8, 2), dtype=int64), values=tf.Tensor([0 0 0 1 4 0 0 0], shape=(8,), dtype=int32), dense_shape=tf.Tensor([3 5], shape=(2,), dtype=int64))
tf.Tensor([-100    2    3], shape=(3,), dtype=int32)
tf.Tensor([b'TRAINING' b'TRAINING' b'VALIDATION'], shape=(3,), dtype=string)
--------------------
SparseTensor(indices=tf.Tensor([[0 0]], shape=(1, 2), dtype=int64), values=tf.Tensor([1], shape=(1,), dtype=int32), dense_shape=tf.Tensor([1 1], shape=(2,), dtype=int64))
tf.Tensor([4], shape=(1,), dtype=int32)
tf.Tensor([b'VALIDATION'], shape=(1,), dtype=string)
--------------------

উপরোক্ত উদাহরণে ধর্মান্তরিত train.avro tensorflow ডেটা সেটটি মধ্যে। ডেটাসেটের প্রতিটি উপাদান হল একটি অভিধান যার কী বৈশিষ্ট্যের নাম, মান হল রূপান্তরিত স্পার্স বা ঘন টেনসর। যেমন, এটা পরিবর্তন করে features , label , dataType একটি VarLenFeature (SparseTensor), FixedLenFeature (DenseTensor), এবং FixedLenFeature (DenseTensor) যথাক্রমে ক্ষেত্র। যেহেতু batch_size 3, এটা থেকে 3 রেকর্ড নিগৃহীত train.avro ফলাফলের ডেটাসেটে এক উপাদান মধ্যে। প্রথম রেকর্ডের জন্য train.avro যার ট্যাগ নাল, নির্দিষ্ট ডিফল্ট মান (-100) এর সাথে অভ্র পাঠক প্রতিস্থাপন করুন। এই উদাহরণে, সেখানে মোট 4 রেকর্ড করছি train.avro । যেহেতু ব্যাচ আকার 3, ফলে ডেটা সেটটি 3 উপাদান, যার শেষ ব্যাচ আকার 1. তবে ব্যবহারকারীকে গত ব্যাচ ড্রপ যদি আকার সক্ষম করে ব্যাচ আকার চেয়ে ছোট সক্ষম হয় রয়েছে drop_final_batch । যেমন:

dataset = tfio.experimental.columnar.make_avro_record_dataset(file_pattern=['train.avro'],
                                                              reader_schema=schema,
                                                              features=features,
                                                              shuffle=False,
                                                              batch_size=3,
                                                              drop_final_batch=True,
                                                              num_epochs=1)

for record in dataset:
    print(record)

{'features[*]': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7f97656423d0>, 'dataType': <tf.Tensor: shape=(3,), dtype=string, numpy=array([b'TRAINING', b'TRAINING', b'VALIDATION'], dtype=object)>, 'label': <tf.Tensor: shape=(3,), dtype=int32, numpy=array([-100,    2,    3], dtype=int32)>}

অভ্র ডেটা প্রসেসিং ত্বরান্বিত করার জন্য অভ্র পার্স/রিড সমান্তরালতা বাড়িয়ে কেউ num_parallel_reads বাড়াতে পারে।

dataset = tfio.experimental.columnar.make_avro_record_dataset(file_pattern=['train.avro'],
                                                              reader_schema=schema,
                                                              features=features,
                                                              shuffle=False,
                                                              num_parallel_reads=16,
                                                              batch_size=3,
                                                              drop_final_batch=True,
                                                              num_epochs=1)

for record in dataset:
    print(record)

{'features[*]': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7f9765693990>, 'dataType': <tf.Tensor: shape=(3,), dtype=string, numpy=array([b'TRAINING', b'TRAINING', b'VALIDATION'], dtype=object)>, 'label': <tf.Tensor: shape=(3,), dtype=int32, numpy=array([-100,    2,    3], dtype=int32)>}

বিস্তারিত ব্যবহারের জন্য make_avro_record_dataset , পড়ুন দয়া এপিআই ডক ।

Avro ডেটাসেটের মাধ্যমে tf.keras মডেলদের প্রশিক্ষণ দিন

এখন আসুন mnist ডেটাসেটের উপর ভিত্তি করে Avro ডেটাসেটের সাথে tf.keras মডেল প্রশিক্ষণের একটি এন্ড-টু-এন্ড উদাহরণের মধ্য দিয়ে চলুন।

লোড train.avro অভ্র ডেটা সেটটি API- এর সাথে TensorFlow ডেটা সেটটি হিসাবে:

features = {
    'features[*]': tfio.experimental.columnar.VarLenFeatureWithRank(dtype=tf.int32)
}

schema = tf.io.gfile.GFile('train.avsc').read()

dataset = tfio.experimental.columnar.make_avro_record_dataset(file_pattern=['train.avro'],
                                                              reader_schema=schema,
                                                              features=features,
                                                              shuffle=False,
                                                              batch_size=1,
                                                              num_epochs=1)

একটি সাধারণ কেরাস মডেল সংজ্ঞায়িত করুন:

def build_and_compile_cnn_model():
    model = tf.keras.Sequential()
    model.compile(optimizer='sgd', loss='mse')
    return model

model = build_and_compile_cnn_model()

অভ্র ডেটাসেটের সাথে কেরাস মডেলকে প্রশিক্ষণ দিন:

model.fit(x=dataset, epochs=1, steps_per_epoch=1, verbose=1)

WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'features[*]': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7f94b00645d0>}
Consider rewriting this model with the Functional API.
WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'features[*]': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7f976476ca90>}
Consider rewriting this model with the Functional API.
1/1 [==============================] - 0s 60ms/step - loss: 0.0000e+00
<tensorflow.python.keras.callbacks.History at 0x7f94ec08c6d0>

অ্যাভ্রো ডেটাসেট টেনসরফ্লো টেনসরে যেকোনও অ্যাভ্রো ডেটা পার্স এবং জোর করতে পারে, যার মধ্যে রেকর্ড, মানচিত্র, অ্যারে, শাখা এবং গণনার রেকর্ড রয়েছে। পার্সিং তথ্য একটি মানচিত্র হিসাবে avro ডেটাসেট বাস্তবায়নে স্থানান্তরিত হয় যেখানে কীগুলি এনকোড করে কীভাবে ডেটা মানগুলিকে পার্স করতে হয় তা এনকোড করে টেনসরফ্লো টেনসরগুলিতে কীভাবে ডেটা জোরপূর্বক করা যায় - আদিম প্রকারের সিদ্ধান্ত নেওয়া (যেমন বুল, int, লং, ফ্লোট, ডবল, স্ট্রিং ) পাশাপাশি টেনসর প্রকার (যেমন স্পারস বা ঘন)। TensorFlow এর পার্সার প্রকারের একটি তালিকা (সারণী 1 দেখুন) এবং আদিম প্রকারের জবরদস্তি (সারণী 2) প্রদান করা হয়েছে।

সারণি 1 সমর্থিত TensorFlow পার্সার প্রকার:

টেনসরফ্লো পার্সার প্রকার	টেনসরফ্লো টেনসর	ব্যাখ্যা
tf.FixedLenFeature([], tf.int32)	ঘন টেনসর	একটি নির্দিষ্ট দৈর্ঘ্য বৈশিষ্ট্য পার্স; অর্থাৎ সমস্ত সারিতে একই ধ্রুবক সংখ্যক উপাদান থাকে, যেমন শুধুমাত্র একটি উপাদান বা একটি অ্যারে যেখানে প্রতিটি সারির জন্য সবসময় একই সংখ্যক উপাদান থাকে
tf.SparseFeature(index_key=['key_1st_index', 'key_2nd_index'], value_key='key_value', dtype=tf.int64, size=[20, 50])	স্পার্স টেনসর	একটি স্পার্স বৈশিষ্ট্য পার্স করুন যেখানে প্রতিটি সারিতে সূচক এবং মানগুলির একটি পরিবর্তনশীল দৈর্ঘ্যের তালিকা রয়েছে। 'index_key' সূচক চিহ্নিত করে। 'মান_কী' মানটিকে চিহ্নিত করে। 'dtype' হল ডেটা টাইপ। 'আকার' হল প্রতিটি সূচক এন্ট্রির জন্য প্রত্যাশিত সর্বোচ্চ সূচক মান
tfio.experimental.columnar.VarLenFeatureWithRank([],tf.int64)	স্পার্স টেনসর	একটি পরিবর্তনশীল দৈর্ঘ্য বৈশিষ্ট্য পার্স; তার মানে প্রতিটি ডেটা সারিতে একটি পরিবর্তনশীল সংখ্যক উপাদান থাকতে পারে, যেমন 1ম সারিতে 5টি উপাদান রয়েছে, 2য় সারিতে 7টি উপাদান রয়েছে

সারণি 2 অভ্র প্রকার থেকে TensorFlow এর প্রকারে সমর্থিত রূপান্তর:

অভ্র আদিম প্রকার	টেনসরফ্লো আদিম প্রকার
বুলিয়ান: একটি বাইনারি মান	tf.bool
বাইট: 8-বিট স্বাক্ষরবিহীন বাইটের একটি ক্রম	tf.string
ডবল: ডবল নির্ভুলতা 64-বিট IEEE ফ্লোটিং পয়েন্ট নম্বর	tf.float64
enum: গণনার ধরন	tf.string প্রতীকের নাম ব্যবহার করে
float: একক নির্ভুলতা 32-বিট IEEE ফ্লোটিং পয়েন্ট নম্বর	tf.float32
int: 32-বিট স্বাক্ষরিত পূর্ণসংখ্যা	tf.int32
দীর্ঘ: 64-বিট স্বাক্ষরিত পূর্ণসংখ্যা	tf.int64
নাল: কোন মান নেই	ডিফল্ট মান ব্যবহার করে
স্ট্রিং: ইউনিকোড অক্ষর ক্রম	tf.string

অভ্র ডেটা সেটটি API- এর উদাহরণ এক বিস্তারিত সেট মধ্যে প্রদান করা হয় পরীক্ষার ।