টেনসরফ্লো ট্রান্সফর্মের সাথে ডেটা প্রেরোসেসিং

টেনসরফ্লো এক্সটেন্ডেড (TFX) এর ফিচার ইঞ্জিনিয়ারিং কম্পোনেন্ট

এই উদাহরণটিতে colab নোটবুক কিভাবে একটি কিছুটা আরো উন্নত উদাহরণ প্রদান TensorFlow ট্রান্সফর্ম ( tf.Transform উভয় একটি মডেল প্রশিক্ষণ এবং উত্পাদন মধ্যে মতামতে উপনীত ভজনা জন্য ঠিক একই কোড ব্যবহার preprocess ডেটা ব্যবহার করা যেতে পারে)।

টেনসরফ্লো ট্রান্সফর্ম হল টেনসরফ্লো-এর জন্য ইনপুট ডেটা প্রি-প্রসেস করার জন্য একটি লাইব্রেরি, যার মধ্যে এমন বৈশিষ্ট্যগুলি তৈরি করা যা প্রশিক্ষণ ডেটাসেটের উপর সম্পূর্ণ পাসের প্রয়োজন। উদাহরণস্বরূপ, TensorFlow Transform ব্যবহার করে আপনি করতে পারেন:

  • গড় এবং মানক বিচ্যুতি ব্যবহার করে একটি ইনপুট মান স্বাভাবিক করুন
  • সমস্ত ইনপুট মানগুলির উপর একটি শব্দভাণ্ডার তৈরি করে স্ট্রিংগুলিকে পূর্ণসংখ্যাতে রূপান্তর করুন
  • পর্যবেক্ষণ করা ডেটা বিতরণের উপর ভিত্তি করে ফ্লোটগুলিকে বালতিতে বরাদ্দ করে পূর্ণসংখ্যাতে রূপান্তর করুন

TensorFlow একটি একক উদাহরণ বা উদাহরণের একটি ব্যাচে ম্যানিপুলেশনের জন্য অন্তর্নির্মিত সমর্থন রয়েছে। tf.Transform সমগ্র প্রশিক্ষণ ডেটা সেটটি উপর পূর্ণ পাস সমর্থন করার জন্য এই ক্ষমতা প্রসারিত করে।

আউটপুট tf.Transform একটি TensorFlow গ্রাফ আপনি উভয় প্রশিক্ষণ ও ভজনা জন্য ব্যবহার করতে পারেন যেমন রপ্তানি করা হয়। প্রশিক্ষণ এবং পরিবেশন উভয়ের জন্য একই গ্রাফ ব্যবহার করা তির্যক প্রতিরোধ করতে পারে, যেহেতু একই রূপান্তর উভয় পর্যায়ে প্রয়োগ করা হয়।

আমরা এই উদাহরণে কি করছি

এই উদাহরণে আমরা প্রক্রিয়াকরণের হবে বহুল ব্যবহৃত ডেটা সেটটি ধারণকারী আদমশুমারি তথ্য , এবং একটি মডেল প্রশিক্ষণ শ্রেণীবিন্যাস না। পথ বরাবর আমরা ব্যবহার করে তথ্য রূপান্তর করা হবে tf.Transform

পিপ আপগ্রেড করুন

স্থানীয়ভাবে চালানোর সময় একটি সিস্টেমে পিপ আপগ্রেড করা এড়াতে, আমরা Colab-এ চলছি কিনা তা নিশ্চিত করুন। স্থানীয় সিস্টেম অবশ্যই আলাদাভাবে আপগ্রেড করা যেতে পারে।

import colab
!pip install --upgrade pip

টেনসরফ্লো ট্রান্সফর্ম ইনস্টল করুন

pip install tensorflow-transform

পাইথন চেক, আমদানি এবং গ্লোবাল

প্রথমে আমরা নিশ্চিত করব যে আমরা পাইথন 3 ব্যবহার করছি, এবং তারপরে এগিয়ে যান এবং আমাদের প্রয়োজনীয় জিনিসগুলি ইনস্টল এবং আমদানি করুন।

import sys

# Confirm that we're using Python 3
assert sys.version_info.major == 3, 'Oops, not running Python 3. Use Runtime > Change runtime type'
import math
import os
import pprint

import tensorflow as tf
print('TF: {}'.format(tf.__version__))

import apache_beam as beam
print('Beam: {}'.format(beam.__version__))

import tensorflow_transform as tft
import tensorflow_transform.beam as tft_beam
print('Transform: {}'.format(tft.__version__))

from tfx_bsl.public import tfxio
from tfx_bsl.coders.example_coder import RecordBatchToExamples

!wget https://storage.googleapis.com/artifacts.tfx-oss-public.appspot.com/datasets/census/adult.data
!wget https://storage.googleapis.com/artifacts.tfx-oss-public.appspot.com/datasets/census/adult.test

= './adult.data'
= './adult.test'
আমাদের কলামের নাম দিন

আমরা আমাদের ডেটাসেটে কলামগুলি উল্লেখ করার জন্য কিছু সহজ তালিকা তৈরি করব।

= [
= [
= [
'age', 'workclass', 'fnlwgt', 'education', 'education-num',
'marital-status', 'occupation', 'relationship', 'race', 'sex',
'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'label'
= 'label'

আমাদের বৈশিষ্ট্য এবং স্কিমা সংজ্ঞায়িত করুন

আমাদের ইনপুটে কলামগুলি কী ধরণের রয়েছে তার উপর ভিত্তি করে একটি স্কিমা নির্ধারণ করা যাক। অন্যান্য জিনিসগুলির মধ্যে এটি তাদের সঠিকভাবে আমদানি করতে সহায়তা করবে।

[(name, tf.io.FixedLenFeature([], tf.string))
[(name, tf.io.FixedLenFeature([], tf.float32))
[(name, tf.io.VarLenFeature(tf.float32))
[(LABEL_KEY, tf.io.FixedLenFeature([], tf.string))]

= tft.tf_metadata.dataset_metadata.DatasetMetadata(

হাইপারপ্যারামিটার এবং মৌলিক গৃহস্থালি সেট করা

প্রশিক্ষণের জন্য ব্যবহৃত ধ্রুবক এবং হাইপারপ্যারামিটার। বালতির আকারে ডেটাসেটের বিবরণে তালিকাভুক্ত সমস্ত বিভাগ এবং "?" এর জন্য একটি অতিরিক্ত অন্তর্ভুক্ত রয়েছে। যা অজানা প্রতিনিধিত্ব করে।

testing = os.getenv("WEB_TEST_BROWSER", False)
= 1
if testing:
= 1
= 1
= 1
= 1
= 16
= 32561
= 128
= 16281

# Names of temp files
= 'train_transformed'
= 'test_transformed'
= 'exported_model_dir'

সঙ্গে প্রাক-প্রক্রিয়াকরণ tf.Transform

একটি তৈরি করুন tf.Transform preprocessing_fn

Preprocessing ফাংশন tf.Transform সবচেয়ে গুরুত্বপূর্ণ ধারণা। একটি প্রিপ্রসেসিং ফাংশন হল যেখানে ডেটাসেটের রূপান্তর সত্যিই ঘটে। এটিকে স্বীকার করলে এবং tensors একটি অভিধান, যেখানে একটি টেন্সর অর্থ ফেরৎ Tensor বা SparseTensor । API কলগুলির দুটি প্রধান গ্রুপ রয়েছে যা সাধারণত একটি প্রিপ্রসেসিং ফাংশনের হৃদয় গঠন করে:

  1. TensorFlow অপস: যেকোনো ফাংশন যা গ্রহণ করে এবং আয় tensors, যা সাধারণত TensorFlow অপস মানে। এগুলি গ্রাফে TensorFlow ক্রিয়াকলাপ যুক্ত করে যা কাঁচা ডেটাকে একবারে একটি বৈশিষ্ট্য ভেক্টরে রূপান্তরিত করে। এগুলি প্রশিক্ষণ এবং পরিবেশন উভয় সময়ে প্রতিটি উদাহরণের জন্য চলবে।
  2. TensorFlow বিশ্লেষক ট্রান্সফর্ম: tf.Transform দ্বারা উপলব্ধ বিশ্লেষক কোন। বিশ্লেষকরাও টেনসরগুলি গ্রহণ করে এবং ফেরত দেয়, কিন্তু টেনসরফ্লো অপ্সের বিপরীতে তারা শুধুমাত্র একবার, প্রশিক্ষণের সময় চালায় এবং সাধারণত পুরো প্রশিক্ষণ ডেটাসেটের উপর সম্পূর্ণ পাস করে। তারা তৈরি টেন্সর ধ্রুবক , যা আপনার গ্রাফ যোগ করা হয়। উদাহরণস্বরূপ, tft.min প্রশিক্ষণ ডেটা সেটটি উপর একটি টেন্সর ন্যূনতম নির্ণয় করে। tf.Transform বিশ্লেষকদের একটি নির্দিষ্ট সেট সরবরাহ করে, তবে এটি ভবিষ্যতের সংস্করণগুলিতে বাড়ানো হবে।
def preprocessing_fn(inputs):
"""Preprocess input columns into transformed columns."""
# Since we are modifying some features and leaving others unchanged, we
# start by setting `outputs` to a copy of `inputs.
= inputs.copy()

# Scale numeric columns to have range [0, 1].
[key] = tft.scale_to_0_1(inputs[key])

# This is a SparseTensor because it is optional. Here we fill in a default
# value when it is missing.
= tf.sparse.SparseTensor(inputs[key].indices, inputs[key].values,
[inputs[key].dense_shape[0], 1])
= tf.sparse.to_dense(sp_input=sparse, default_value=0.)
# Reshaping from a batch of vectors of size 1 to a batch to scalars.
= tf.squeeze(dense, axis=1)
[key] = tft.scale_to_0_1(dense)

# For all categorical columns except the label column, we generate a
# vocabulary but do not modify the feature.  This vocabulary is instead
# used in the trainer, by means of a feature column, to convert the feature
# from a string to an integer id.
[key] = tft.compute_and_apply_vocabulary(

# For the label column we provide the mapping from string to index.
= ['>50K', '<=50K']
with tf.init_scope():
= tf.lookup.KeyValueTensorInitializer(
=tf.cast(tf.range(len(table_keys)), tf.int64),
= tf.lookup.StaticHashTable(initializer, default_value=-1)
# Remove trailing periods for test data when the data is read with tf.data.
= tf.strings.regex_replace(inputs[LABEL_KEY], r'\.', '')
= tf.strings.strip(label_str)
= table.lookup(label_str)
= tf.one_hot(
=data_labels, depth=len(table_keys), on_value=1.0, off_value=0.0)
[LABEL_KEY] = tf.reshape(transformed_label, [-1, len(table_keys)])

return outputs

তথ্য রূপান্তর

এখন আমরা একটি Apache Beam পাইপলাইনে আমাদের ডেটা রূপান্তর শুরু করতে প্রস্তুত।

  1. CSV রিডার ব্যবহার করে ডেটা পড়ুন
  2. একটি প্রিপ্রসেসিং পাইপলাইন ব্যবহার করে এটিকে রূপান্তর করুন যা সাংখ্যিক ডেটা স্কেল করে এবং প্রতিটি বিভাগের জন্য একটি শব্দভান্ডার তৈরি করে স্ট্রিং থেকে int64 মান সূচকে শ্রেণীগত ডেটা রূপান্তর করে
  3. হিসেবে ফলাফলের আউট লিখুন TFRecord এর Example protos, যা আমরা পরে একটি মডেল প্রশিক্ষণ জন্য ব্যবহার করবে
def transform_data(train_data_file, test_data_file, working_dir):
"""Transform the data and write out as a TFRecord of Example protos.

  Read in the data using the CSV reader, and transform it using a
  preprocessing pipeline that scales numeric data and converts categorical data
  from strings to int64 values indices, by creating a vocabulary for each

    train_data_file: File containing training data
    test_data_file: File containing test data
    working_dir: Directory to write transformed data and metadata to

# The "with" block will create a pipeline, and run that pipeline at the exit
# of the block.
with beam.Pipeline() as pipeline:
with tft_beam.Context(temp_dir=tempfile.mkdtemp()):
# Create a TFXIO to read the census data with the schema. To do this we
# need to list all columns in order since the schema doesn't specify the
# order of columns in the csv.
# We first read CSV files and use BeamRecordCsvTFXIO whose .BeamSource()
# accepts a PCollection[bytes] because we need to patch the records first
# (see "FixCommasTrainData" below). Otherwise, tfxio.CsvTFXIO can be used
# to both read the CSV files and parse them to TFT inputs:
# csv_tfxio = tfxio.CsvTFXIO(...)
# raw_data = (pipeline | 'ToRecordBatches' >> csv_tfxio.BeamSource())
= tfxio.BeamRecordCsvTFXIO(

# Read in raw data and convert using CSV TFXIO.  Note that we apply
# some Beam transformations here, which will not be encoded in the TF
# graph since we don't do the from within tf.Transform's methods
# (AnalyzeDataset, TransformDataset etc.).  These transformations are just
# to get data into a format that the CSV TFXIO can read, in particular
# removing spaces after commas.
= (
| 'ReadTrainData' >> beam.io.ReadFromText(
, coder=beam.coders.BytesCoder())
| 'FixCommasTrainData' >> beam.Map(
lambda line: line.replace(b', ', b','))
| 'DecodeTrainData' >> csv_tfxio.BeamSource())

# Combine data and schema into a dataset tuple.  Note that we already used
# the schema to read the CSV data, but we also need it to interpret
# raw_data.
= (raw_data, csv_tfxio.TensorAdapterConfig())

# The TFXIO output format is chosen for improved performance.
, transform_fn = (
| tft_beam.AnalyzeAndTransformDataset(
, output_record_batches=True))

# Transformed metadata is not necessary for encoding.
, _ = transformed_dataset

# Extract transformed RecordBatches, encode and write them to the given
# directory.
= (
| 'EncodeTrainData' >>
.FlatMapTuple(lambda batch, _: RecordBatchToExamples(batch))
| 'WriteTrainData' >> beam.io.WriteToTFRecord(
.path.join(working_dir, TRANSFORMED_TRAIN_DATA_FILEBASE)))

# Now apply transform function to test data.  In this case we remove the
# trailing period at the end of each line, and also ignore the header line
# that is present in the test data file.
= (
| 'ReadTestData' >> beam.io.ReadFromText(
, skip_header_lines=1,
| 'FixCommasTestData' >> beam.Map(
lambda line: line.replace(b', ', b','))
| 'RemoveTrailingPeriodsTestData' >> beam.Map(lambda line: line[:-1])
| 'DecodeTestData' >> csv_tfxio.BeamSource())

= (raw_test_data, csv_tfxio.TensorAdapterConfig())

# The TFXIO output format is chosen for improved performance.
= (
(raw_test_dataset, transform_fn)
| tft_beam.TransformDataset(output_record_batches=True))

# Transformed metadata is not necessary for encoding.
, _ = transformed_test_dataset

# Extract transformed RecordBatches, encode and write them to the given
# directory.
= (
| 'EncodeTestData' >>
.FlatMapTuple(lambda batch, _: RecordBatchToExamples(batch))
| 'WriteTestData' >> beam.io.WriteToTFRecord(
.path.join(working_dir, TRANSFORMED_TEST_DATA_FILEBASE)))

# Will write a SavedModel and metadata to working_dir, which can then
# be read by the tft.TFTransformOutput class.
= (
| 'WriteTransformFn' >> tft_beam.WriteTransformFn(working_dir))

tf.keras ব্যবহার করে একটি মডেলকে প্রশিক্ষণ দিতে আমাদের প্রি-প্রসেসড ডেটা ব্যবহার করা

কিভাবে দেখাতে tf.Transform উভয় প্রশিক্ষণ ও ভজনা জন্য একই কোড ব্যবহার করতে সক্ষম, এবং এইভাবে স্কিউ প্রতিরোধ, আমরা একটি মডেল প্রশিক্ষণের যাচ্ছি। আমাদের মডেলকে প্রশিক্ষণ দিতে এবং উৎপাদনের জন্য আমাদের প্রশিক্ষিত মডেল প্রস্তুত করতে আমাদের ইনপুট ফাংশন তৈরি করতে হবে। আমাদের প্রশিক্ষণ ইনপুট ফাংশন এবং আমাদের পরিবেশন ইনপুট ফাংশনের মধ্যে প্রধান পার্থক্য হল যে প্রশিক্ষণ ডেটাতে লেবেল থাকে, এবং উত্পাদন ডেটা থাকে না। যুক্তি এবং রিটার্নও কিছুটা ভিন্ন।

প্রশিক্ষণের জন্য একটি ইনপুট ফাংশন তৈরি করুন

def _make_training_input_fn(tf_transform_output, transformed_examples,
"""An input function reading from transformed data, converting to model input.

    tf_transform_output: Wrapper around output of tf.Transform.
    transformed_examples: Base filename of examples.
    batch_size: Batch size.

    The input data for training or eval, in the form of k.

def input_fn():
return tf.data.experimental.make_batched_features_dataset(

return input_fn

পরিবেশনের জন্য একটি ইনপুট ফাংশন তৈরি করুন

আসুন একটি ইনপুট ফাংশন তৈরি করি যা আমরা উত্পাদনে ব্যবহার করতে পারি এবং পরিবেশনের জন্য আমাদের প্রশিক্ষিত মডেল প্রস্তুত করি।

def _make_serving_input_fn(tf_transform_output, raw_examples, batch_size):
"""An input function reading from raw data, converting to model input.

    tf_transform_output: Wrapper around output of tf.Transform.
    raw_examples: Base filename of examples.
    batch_size: Batch size.

    The input data for training or eval, in the form of k.

def get_ordered_raw_data_dtypes():
= []
if col not in RAW_DATA_FEATURE_SPEC:
if isinstance(spec, tf.io.FixedLenFeature):
return result

def input_fn():
= tf.data.experimental.make_csv_dataset(

= tf_transform_output.transform_features_layer()

def transform_dataset(data):
= {}
for key, val in data.items():
if key not in RAW_DATA_FEATURE_SPEC:
if isinstance(RAW_DATA_FEATURE_SPEC[key], tf.io.VarLenFeature):
[key] = tf.RaggedTensor.from_tensor(
.expand_dims(val, -1)).to_sparse()
[key] = val
= tft_layer(raw_features)
= transformed_features.pop(LABEL_KEY)
return (transformed_features, data_labels)

return dataset.map(

return input_fn

ট্রেন, মূল্যায়ন, এবং আমাদের মডেল রপ্তানি

def export_serving_model(tf_transform_output, model, output_dir):
"""Exports a keras model for serving.

    tf_transform_output: Wrapper around output of tf.Transform.
    model: A keras model to export for serving.
    output_dir: A directory where the model will be exported to.

# The layer has to be saved to the model for keras tracking purpases.
.tft_layer = tf_transform_output.transform_features_layer()

def serve_tf_examples_fn(serialized_tf_examples):
"""Serving tf.function model wrapper."""
= tf.io.parse_example(serialized_tf_examples, feature_spec)
= model.tft_layer(parsed_features)
= model(transformed_features)
= tf.constant([['0', '1']])
= tf.tile(classes_names, [tf.shape(outputs)[0], 1])
return {'classes': classes, 'scores': outputs}

= serve_tf_examples_fn.get_concrete_function(
.TensorSpec(shape=[None], dtype=tf.string, name='inputs'))
= {'serving_default': concrete_serving_fn}

# This is required in order to make this model servable with model_server.
= os.path.join(output_dir, '1')
.save(versioned_output_dir, save_format='tf', signatures=signatures)
def train_and_evaluate(working_dir,
"""Train the model on training data and evaluate on test data.

    working_dir: The location of the Transform output.
    num_train_instances: Number of instances in train set
    num_test_instances: Number of instances in test set

    The results from the estimator's 'evaluate' method

= os.path.join(working_dir,
+ '*')
= os.path.join(working_dir,
+ '*')
= tft.TFTransformOutput(working_dir)

= _make_training_input_fn(
, train_data_path_pattern, batch_size=TRAIN_BATCH_SIZE)
= train_input_fn()

# Evaluate model on test dataset.
= _make_training_input_fn(
, eval_data_path_pattern, batch_size=TRAIN_BATCH_SIZE)
= eval_input_fn()

= tf_transform_output.transformed_feature_spec().copy()

= {}
for key, spec in feature_spec.items():
if isinstance(spec, tf.io.VarLenFeature):
[key] = tf.keras.layers.Input(
=[None], name=key, dtype=spec.dtype, sparse=True)
elif isinstance(spec, tf.io.FixedLenFeature):
[key] = tf.keras.layers.Input(
=spec.shape, name=key, dtype=spec.dtype)
raise ValueError('Spec type is not supported: ', key, spec)

= {}
for key in inputs:
= tf.expand_dims(inputs[key], -1)
= tf_transform_output.num_buckets_for_transformed_feature(key)
= (
=num_buckets, output_mode='binary', sparse=False))
[key] = encoding_layer(feature)
[key] = feature

= tf.concat(tf.nest.flatten(encoded_inputs), axis=1)
= tf.keras.layers.Dense(100, activation='relu')(stacked_inputs)
= tf.keras.layers.Dense(70, activation='relu')(output)
= tf.keras.layers.Dense(50, activation='relu')(output)
= tf.keras.layers.Dense(20, activation='relu')(output)
= tf.keras.layers.Dense(2, activation='sigmoid')(output)
= tf.keras.Model(inputs=inputs, outputs=output)


.fit(train_dataset, validation_data=validation_dataset,
=math.ceil(num_train_instances / TRAIN_BATCH_SIZE),
=math.ceil(num_test_instances / TRAIN_BATCH_SIZE))

# Export the model.
= os.path.join(working_dir, EXPORTED_MODEL_DIR)
(tf_transform_output, model, exported_model_dir)

= model.evaluate(validation_dataset, steps=num_test_instances)
= model.metrics_names
return {l: v for l, v in zip(metrics_labels, metrics_values)}

সব একসাথে রাখুন

আমাদের আদমশুমারির ডেটা প্রিপ্রসেস করতে, একটি মডেলকে প্রশিক্ষিত করতে এবং পরিবেশনের জন্য প্রস্তুত করার জন্য আমাদের প্রয়োজনীয় সমস্ত উপাদান আমরা তৈরি করেছি। এখন পর্যন্ত আমরা শুধু জিনিস প্রস্তুত করা হয়েছে. এটা দৌড় শুরু করার সময়!

import tempfile
= os.path.join(tempfile.gettempdir(), 'keras')

(train, test, temp)
= train_and_evaluate(temp)
(ঐচ্ছিক) tf.estimator ব্যবহার করে একটি মডেলকে প্রশিক্ষণের জন্য আমাদের প্রি-প্রসেসড ডেটা ব্যবহার করা

আপনি যদি কেরাস মডেলের পরিবর্তে একটি এস্টিমেটর মডেল ব্যবহার করতে চান তবে এই বিভাগে কোডটি দেখায় যে এটি কীভাবে করা যায়।

প্রশিক্ষণের জন্য একটি ইনপুট ফাংশন তৈরি করুন

def _make_training_input_fn(tf_transform_output, transformed_examples,
"""Creates an input function reading from transformed data.

    tf_transform_output: Wrapper around output of tf.Transform.
    transformed_examples: Base filename of examples.
    batch_size: Batch size.

    The input function for training or eval.

def input_fn():
"""Input function for training and eval."""
= tf.data.experimental.make_batched_features_dataset(

= tf.compat.v1.data.make_one_shot_iterator(

# Extract features and label from the transformed tensors.
= tf.where(
.equal(transformed_features.pop(LABEL_KEY), 1))

return transformed_features, transformed_labels[:,1]

return input_fn

পরিবেশনের জন্য একটি ইনপুট ফাংশন তৈরি করুন

আসুন একটি ইনপুট ফাংশন তৈরি করি যা আমরা উত্পাদনে ব্যবহার করতে পারি এবং পরিবেশনের জন্য আমাদের প্রশিক্ষিত মডেল প্রস্তুত করি।

def _make_serving_input_fn(tf_transform_output):
"""Creates an input function reading from raw data.

    tf_transform_output: Wrapper around output of tf.Transform.

    The serving input function.

# Remove label since it is not available during serving.

def serving_input_fn():
"""Input function for serving."""
# Get raw features by generating the basic serving input_fn and calling it.
# Here we generate an input_fn that expects a parsed Example proto to be fed
# to the model at serving time.  See also
# tf.estimator.export.build_raw_serving_input_receiver_fn.
= tf.estimator.export.build_parsing_serving_input_receiver_fn(
, default_batch_size=None)
= raw_input_fn()

# Apply the transform function that was used to generate the materialized
# data.
= serving_input_receiver.features
= tf_transform_output.transform_raw_features(

return tf.estimator.export.ServingInputReceiver(
, serving_input_receiver.receiver_tensors)

return serving_input_fn

ফিচারকলামে আমাদের ইনপুট ডেটা মোড়ানো

আমাদের মডেল টেনসরফ্লো ফিচার কলামে আমাদের ডেটা আশা করবে।

def get_feature_columns(tf_transform_output):
"""Returns the FeatureColumns for the model.

    tf_transform_output: A `TFTransformOutput` object.

    A list of FeatureColumns.

# Wrap scalars as real valued columns.
= [tf.feature_column.numeric_column(key, shape=())

# Wrap categorical columns.
= [

return real_valued_columns + one_hot_columns

ট্রেন, মূল্যায়ন, এবং আমাদের মডেল রপ্তানি

def train_and_evaluate(working_dir, num_train_instances=NUM_TRAIN_INSTANCES,
"""Train the model on training data and evaluate on test data.

    working_dir: Directory to read transformed data and metadata from and to
        write exported model to.
    num_train_instances: Number of instances in train set
    num_test_instances: Number of instances in test set

    The results from the estimator's 'evaluate' method

= tft.TFTransformOutput(working_dir)

= tf.estimator.RunConfig()

= tf.estimator.LinearClassifier(

# Fit the model using the default optimizer.
= _make_training_input_fn(
.path.join(working_dir, TRANSFORMED_TRAIN_DATA_FILEBASE + '*'),
=TRAIN_NUM_EPOCHS * num_train_instances / TRAIN_BATCH_SIZE)

# Evaluate model on test dataset.
= _make_training_input_fn(
.path.join(working_dir, TRANSFORMED_TEST_DATA_FILEBASE + '*'),

# Export the model.
= _make_serving_input_fn(tf_transform_output)
= os.path.join(working_dir, EXPORTED_MODEL_DIR)
.export_saved_model(exported_model_dir, serving_input_fn)

return estimator.evaluate(input_fn=eval_input_fn, steps=num_test_instances)

সব একসাথে রাখুন

আমাদের আদমশুমারির ডেটা প্রিপ্রসেস করতে, একটি মডেলকে প্রশিক্ষিত করতে এবং পরিবেশনের জন্য প্রস্তুত করার জন্য আমাদের প্রয়োজনীয় সমস্ত উপাদান আমরা তৈরি করেছি। এখন পর্যন্ত আমরা শুধু জিনিস প্রস্তুত করা হয়েছে. এটা দৌড় শুরু করার সময়!

import tempfile
= os.path.join(tempfile.gettempdir(), 'estimator')

(train, test, temp)
= train_and_evaluate(temp)
আমরা কি করেছি

এই উদাহরণে আমরা ব্যবহার tf.Transform জনগণনা তথ্য একটি ডেটা সেটটি preprocess, এবং প্রশিক্ষণ পরিষ্কার ও রূপান্তরিত ডেটা সঙ্গে একটি মডেল। আমরা একটি ইনপুট ফাংশনও তৈরি করেছি যা আমরা ব্যবহার করতে পারি যখন আমরা আমাদের প্রশিক্ষিত মডেলকে অনুমান সম্পাদনের জন্য একটি উত্পাদন পরিবেশে স্থাপন করি। প্রশিক্ষণ এবং অনুমান উভয়ের জন্য একই কোড ব্যবহার করে আমরা ডেটা স্ক্যুতে যেকোন সমস্যা এড়াই। আমরা ডেটা পরিষ্কার করার জন্য প্রয়োজনীয় রূপান্তর সম্পাদন করার জন্য একটি অ্যাপাচি বিম ট্রান্সফর্ম তৈরি করার বিষয়ে শিখেছি। আমরা এই রুপান্তরিত ডেটা ব্যবহারের জন্য কিভাবে একটি মডেল যেকোন একটি ব্যবহার করে প্রশিক্ষণের জন্য দেখেছি tf.keras বা tf.estimator । এটি টেনসরফ্লো ট্রান্সফর্ম যা করতে পারে তার একটি ছোট অংশ! আমরা ডুব দিবেন করতে উত্সাহিত tf.Transform এবং কি এটা আপনার জন্য কি করতে পারেন আবিষ্কার।