TensorFlow.org এ দেখুন | Google Colab-এ চালান | GitHub-এ উৎস দেখুন | নোটবুক ডাউনলোড করুন |
ওভারভিউ
অভ্র ডেটা সেটটি API- এর উদ্দেশ্য অভ্র যেমন TensorFlow মধ্যে স্থানীয়ভাবে ডেটা ফরম্যাট লোড হয় TensorFlow ডেটা সেটটি । অভ্র একটি ডেটা সিরিয়ালাইজেশন সিস্টেম যা প্রোটোকল বাফারের মতো। এটি Apache Hadoop-এ ব্যাপকভাবে ব্যবহৃত হয় যেখানে এটি ক্রমাগত ডেটার জন্য একটি ক্রমিক বিন্যাস এবং Hadoop নোডগুলির মধ্যে যোগাযোগের জন্য একটি তারের বিন্যাস উভয়ই প্রদান করতে পারে। অভ্র ডেটা একটি সারি-ভিত্তিক, কম্প্যাক্টেড বাইনারি ডেটা ফর্ম্যাট। এটি স্কিমার উপর নির্ভর করে যা একটি পৃথক JSON ফাইল হিসাবে সংরক্ষণ করা হয়। অভ্র বিন্যাস এবং স্কিমা ঘোষণার বৈশিষ্ট জন্য, পড়ুন দয়া কর্মকর্তা ম্যানুয়াল ।
সেটআপ প্যাকেজ
প্রয়োজনীয় tensorflow-io প্যাকেজ ইনস্টল করুন
pip install tensorflow-io
প্যাকেজ আমদানি করুন
import tensorflow as tf
import tensorflow_io as tfio
tf এবং tfio আমদানি বৈধ করুন
print("tensorflow-io version: {}".format(tfio.__version__))
print("tensorflow version: {}".format(tf.__version__))
tensorflow-io version: 0.18.0 tensorflow version: 2.5.0
ব্যবহার
ডেটাসেট অন্বেষণ করুন
এই টিউটোরিয়ালের উদ্দেশ্যে, আসুন অভ্র ডেটাসেটের নমুনা ডাউনলোড করি।
একটি নমুনা অভ্র ফাইল ডাউনলোড করুন:
curl -OL https://github.com/tensorflow/io/raw/master/docs/tutorials/avro/train.avrols -l train.avro
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 151 100 151 0 0 1268 0 --:--:-- --:--:-- --:--:-- 1268
100 369 100 369 0 0 1255 0 --:--:-- --:--:-- --:--:-- 1255
-rw-rw-r-- 1 kbuilder kokoro 369 May 25 22:23 train.avro
নমুনা Avro ফাইলের সংশ্লিষ্ট স্কিমা ফাইল ডাউনলোড করুন:
curl -OL https://github.com/tensorflow/io/raw/master/docs/tutorials/avro/train.avscls -l train.avsc
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 151 100 151 0 0 1247 0 --:--:-- --:--:-- --:--:-- 1247
100 271 100 271 0 0 780 0 --:--:-- --:--:-- --:--:-- 780
-rw-rw-r-- 1 kbuilder kokoro 271 May 25 22:23 train.avsc
উপরের উদাহরণে, mnist ডেটাসেটের উপর ভিত্তি করে একটি টেস্টিং Avro ডেটাসেট তৈরি করা হয়েছে। TFRecord বিন্যাসে মূল mnist ডেটা সেটটি থেকে জেনারেট হওয়া মেমরি নামে ডেটা সেটটি । যাইহোক, ডেমো ডেটাসেট হিসাবে mnist ডেটাসেট অনেক বড়। সরলতার উদ্দেশ্যে, এর বেশিরভাগই ছাঁটাই করা হয়েছিল এবং প্রথম কয়েকটি রেকর্ড শুধুমাত্র রাখা হয়েছিল। তাছাড়া, অতিরিক্ত ছাঁটাইয়ের জন্য করা হয়েছিল image মূল mnist ডেটাসেটে ক্ষেত্র এবং এটিকে ম্যাপ features অভ্র মধ্যে ক্ষেত্র। তাই অভ্র ফাইল train.avro : 4 রেকর্ড, প্রতিটি যা 3 ক্ষেত্র করেছে features , যা কোন int, একটি অ্যারে label , কোন int বা নাল, এবং dataType , একটি enum। সঙ্কেতমুক্ত দেখতে train.avro (উল্লেখ্য মূল অভ্র তথ্য ফাইল মানুষের পাঠযোগ্য যেমন অভ্র একটি সন্নিবিষ্ট ফরম্যাট নয়):
অভ্র ফাইলটি পড়ার জন্য প্রয়োজনীয় প্যাকেজটি ইনস্টল করুন:
pip install avro
একটি মানব-পাঠযোগ্য বিন্যাসে একটি অভ্র ফাইল পড়তে এবং মুদ্রণ করতে:
from avro.io import DatumReader
from avro.datafile import DataFileReader
import json
def print_avro(avro_file, max_record_num=None):
if max_record_num is not None and max_record_num <= 0:
return
with open(avro_file, 'rb') as avro_handler:
reader = DataFileReader(avro_handler, DatumReader())
record_count = 0
for record in reader:
record_count = record_count+1
print(record)
if max_record_num is not None and record_count == max_record_num:
break
print_avro(avro_file='train.avro')
{'features': [0, 0, 0, 1, 4], 'label': None, 'dataType': 'TRAINING'}
{'features': [0, 0], 'label': 2, 'dataType': 'TRAINING'}
{'features': [0], 'label': 3, 'dataType': 'VALIDATION'}
{'features': [1], 'label': 4, 'dataType': 'VALIDATION'}
আর স্কিমা train.avro যার দ্বারা প্রতিনিধিত্ব করা হয় train.avsc একটি JSON- বিন্যস্ত ফাইল। দেখার জন্য train.avsc :
def print_schema(avro_schema_file):
with open(avro_schema_file, 'r') as handle:
parsed = json.load(handle)
print(json.dumps(parsed, indent=4, sort_keys=True))
print_schema('train.avsc')
{
"fields": [
{
"name": "features",
"type": {
"items": "int",
"type": "array"
}
},
{
"name": "label",
"type": [
"int",
"null"
]
},
{
"name": "dataType",
"type": {
"name": "dataTypes",
"symbols": [
"TRAINING",
"VALIDATION"
],
"type": "enum"
}
}
],
"name": "ImageDataset",
"type": "record"
}
ডেটাসেট প্রস্তুত করুন
লোড train.avro অভ্র ডেটা সেটটি API- এর সাথে TensorFlow ডেটা সেটটি হিসাবে:
features = {
'features[*]': tfio.experimental.columnar.VarLenFeatureWithRank(dtype=tf.int32),
'label': tf.io.FixedLenFeature(shape=[], dtype=tf.int32, default_value=-100),
'dataType': tf.io.FixedLenFeature(shape=[], dtype=tf.string)
}
schema = tf.io.gfile.GFile('train.avsc').read()
dataset = tfio.experimental.columnar.make_avro_record_dataset(file_pattern=['train.avro'],
reader_schema=schema,
features=features,
shuffle=False,
batch_size=3,
num_epochs=1)
for record in dataset:
print(record['features[*]'])
print(record['label'])
print(record['dataType'])
print("--------------------")
SparseTensor(indices=tf.Tensor( [[0 0] [0 1] [0 2] [0 3] [0 4] [1 0] [1 1] [2 0]], shape=(8, 2), dtype=int64), values=tf.Tensor([0 0 0 1 4 0 0 0], shape=(8,), dtype=int32), dense_shape=tf.Tensor([3 5], shape=(2,), dtype=int64)) tf.Tensor([-100 2 3], shape=(3,), dtype=int32) tf.Tensor([b'TRAINING' b'TRAINING' b'VALIDATION'], shape=(3,), dtype=string) -------------------- SparseTensor(indices=tf.Tensor([[0 0]], shape=(1, 2), dtype=int64), values=tf.Tensor([1], shape=(1,), dtype=int32), dense_shape=tf.Tensor([1 1], shape=(2,), dtype=int64)) tf.Tensor([4], shape=(1,), dtype=int32) tf.Tensor([b'VALIDATION'], shape=(1,), dtype=string) --------------------
উপরোক্ত উদাহরণে ধর্মান্তরিত train.avro tensorflow ডেটা সেটটি মধ্যে। ডেটাসেটের প্রতিটি উপাদান হল একটি অভিধান যার কী বৈশিষ্ট্যের নাম, মান হল রূপান্তরিত স্পার্স বা ঘন টেনসর। যেমন, এটা পরিবর্তন করে features , label , dataType একটি VarLenFeature (SparseTensor), FixedLenFeature (DenseTensor), এবং FixedLenFeature (DenseTensor) যথাক্রমে ক্ষেত্র। যেহেতু batch_size 3, এটা থেকে 3 রেকর্ড নিগৃহীত train.avro ফলাফলের ডেটাসেটে এক উপাদান মধ্যে। প্রথম রেকর্ডের জন্য train.avro যার ট্যাগ নাল, নির্দিষ্ট ডিফল্ট মান (-100) এর সাথে অভ্র পাঠক প্রতিস্থাপন করুন। এই উদাহরণে, সেখানে মোট 4 রেকর্ড করছি train.avro । যেহেতু ব্যাচ আকার 3, ফলে ডেটা সেটটি 3 উপাদান, যার শেষ ব্যাচ আকার 1. তবে ব্যবহারকারীকে গত ব্যাচ ড্রপ যদি আকার সক্ষম করে ব্যাচ আকার চেয়ে ছোট সক্ষম হয় রয়েছে drop_final_batch । যেমন:
dataset = tfio.experimental.columnar.make_avro_record_dataset(file_pattern=['train.avro'],
reader_schema=schema,
features=features,
shuffle=False,
batch_size=3,
drop_final_batch=True,
num_epochs=1)
for record in dataset:
print(record)
{'features[*]': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7f97656423d0>, 'dataType': <tf.Tensor: shape=(3,), dtype=string, numpy=array([b'TRAINING', b'TRAINING', b'VALIDATION'], dtype=object)>, 'label': <tf.Tensor: shape=(3,), dtype=int32, numpy=array([-100, 2, 3], dtype=int32)>}
অভ্র ডেটা প্রসেসিং ত্বরান্বিত করার জন্য অভ্র পার্স/রিড সমান্তরালতা বাড়িয়ে কেউ num_parallel_reads বাড়াতে পারে।
dataset = tfio.experimental.columnar.make_avro_record_dataset(file_pattern=['train.avro'],
reader_schema=schema,
features=features,
shuffle=False,
num_parallel_reads=16,
batch_size=3,
drop_final_batch=True,
num_epochs=1)
for record in dataset:
print(record)
{'features[*]': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7f9765693990>, 'dataType': <tf.Tensor: shape=(3,), dtype=string, numpy=array([b'TRAINING', b'TRAINING', b'VALIDATION'], dtype=object)>, 'label': <tf.Tensor: shape=(3,), dtype=int32, numpy=array([-100, 2, 3], dtype=int32)>}
বিস্তারিত ব্যবহারের জন্য make_avro_record_dataset , পড়ুন দয়া এপিআই ডক ।
Avro ডেটাসেটের মাধ্যমে tf.keras মডেলদের প্রশিক্ষণ দিন
এখন আসুন mnist ডেটাসেটের উপর ভিত্তি করে Avro ডেটাসেটের সাথে tf.keras মডেল প্রশিক্ষণের একটি এন্ড-টু-এন্ড উদাহরণের মধ্য দিয়ে চলুন।
লোড train.avro অভ্র ডেটা সেটটি API- এর সাথে TensorFlow ডেটা সেটটি হিসাবে:
features = {
'features[*]': tfio.experimental.columnar.VarLenFeatureWithRank(dtype=tf.int32)
}
schema = tf.io.gfile.GFile('train.avsc').read()
dataset = tfio.experimental.columnar.make_avro_record_dataset(file_pattern=['train.avro'],
reader_schema=schema,
features=features,
shuffle=False,
batch_size=1,
num_epochs=1)
একটি সাধারণ কেরাস মডেল সংজ্ঞায়িত করুন:
def build_and_compile_cnn_model():
model = tf.keras.Sequential()
model.compile(optimizer='sgd', loss='mse')
return model
model = build_and_compile_cnn_model()
অভ্র ডেটাসেটের সাথে কেরাস মডেলকে প্রশিক্ষণ দিন:
model.fit(x=dataset, epochs=1, steps_per_epoch=1, verbose=1)
WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'features[*]': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7f94b00645d0>}
Consider rewriting this model with the Functional API.
WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'features[*]': <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7f976476ca90>}
Consider rewriting this model with the Functional API.
1/1 [==============================] - 0s 60ms/step - loss: 0.0000e+00
<tensorflow.python.keras.callbacks.History at 0x7f94ec08c6d0>
অ্যাভ্রো ডেটাসেট টেনসরফ্লো টেনসরে যেকোনও অ্যাভ্রো ডেটা পার্স এবং জোর করতে পারে, যার মধ্যে রেকর্ড, মানচিত্র, অ্যারে, শাখা এবং গণনার রেকর্ড রয়েছে। পার্সিং তথ্য একটি মানচিত্র হিসাবে avro ডেটাসেট বাস্তবায়নে স্থানান্তরিত হয় যেখানে কীগুলি এনকোড করে কীভাবে ডেটা মানগুলিকে পার্স করতে হয় তা এনকোড করে টেনসরফ্লো টেনসরগুলিতে কীভাবে ডেটা জোরপূর্বক করা যায় - আদিম প্রকারের সিদ্ধান্ত নেওয়া (যেমন বুল, int, লং, ফ্লোট, ডবল, স্ট্রিং ) পাশাপাশি টেনসর প্রকার (যেমন স্পারস বা ঘন)। TensorFlow এর পার্সার প্রকারের একটি তালিকা (সারণী 1 দেখুন) এবং আদিম প্রকারের জবরদস্তি (সারণী 2) প্রদান করা হয়েছে।
সারণি 1 সমর্থিত TensorFlow পার্সার প্রকার:
| টেনসরফ্লো পার্সার প্রকার | টেনসরফ্লো টেনসর | ব্যাখ্যা |
|---|---|---|
| tf.FixedLenFeature([], tf.int32) | ঘন টেনসর | একটি নির্দিষ্ট দৈর্ঘ্য বৈশিষ্ট্য পার্স; অর্থাৎ সমস্ত সারিতে একই ধ্রুবক সংখ্যক উপাদান থাকে, যেমন শুধুমাত্র একটি উপাদান বা একটি অ্যারে যেখানে প্রতিটি সারির জন্য সবসময় একই সংখ্যক উপাদান থাকে |
| tf.SparseFeature(index_key=['key_1st_index', 'key_2nd_index'], value_key='key_value', dtype=tf.int64, size=[20, 50]) | স্পার্স টেনসর | একটি স্পার্স বৈশিষ্ট্য পার্স করুন যেখানে প্রতিটি সারিতে সূচক এবং মানগুলির একটি পরিবর্তনশীল দৈর্ঘ্যের তালিকা রয়েছে। 'index_key' সূচক চিহ্নিত করে। 'মান_কী' মানটিকে চিহ্নিত করে। 'dtype' হল ডেটা টাইপ। 'আকার' হল প্রতিটি সূচক এন্ট্রির জন্য প্রত্যাশিত সর্বোচ্চ সূচক মান |
| tfio.experimental.columnar.VarLenFeatureWithRank([],tf.int64) | স্পার্স টেনসর | একটি পরিবর্তনশীল দৈর্ঘ্য বৈশিষ্ট্য পার্স; তার মানে প্রতিটি ডেটা সারিতে একটি পরিবর্তনশীল সংখ্যক উপাদান থাকতে পারে, যেমন 1ম সারিতে 5টি উপাদান রয়েছে, 2য় সারিতে 7টি উপাদান রয়েছে |
সারণি 2 অভ্র প্রকার থেকে TensorFlow এর প্রকারে সমর্থিত রূপান্তর:
| অভ্র আদিম প্রকার | টেনসরফ্লো আদিম প্রকার |
|---|---|
| বুলিয়ান: একটি বাইনারি মান | tf.bool |
| বাইট: 8-বিট স্বাক্ষরবিহীন বাইটের একটি ক্রম | tf.string |
| ডবল: ডবল নির্ভুলতা 64-বিট IEEE ফ্লোটিং পয়েন্ট নম্বর | tf.float64 |
| enum: গণনার ধরন | tf.string প্রতীকের নাম ব্যবহার করে |
| float: একক নির্ভুলতা 32-বিট IEEE ফ্লোটিং পয়েন্ট নম্বর | tf.float32 |
| int: 32-বিট স্বাক্ষরিত পূর্ণসংখ্যা | tf.int32 |
| দীর্ঘ: 64-বিট স্বাক্ষরিত পূর্ণসংখ্যা | tf.int64 |
| নাল: কোন মান নেই | ডিফল্ট মান ব্যবহার করে |
| স্ট্রিং: ইউনিকোড অক্ষর ক্রম | tf.string |
অভ্র ডেটা সেটটি API- এর উদাহরণ এক বিস্তারিত সেট মধ্যে প্রদান করা হয় পরীক্ষার ।
TensorFlow.org এ দেখুন
Google Colab-এ চালান
GitHub-এ উৎস দেখুন
নোটবুক ডাউনলোড করুন