Lecteur Apache ORC


Apache ORC est un format de stockage en colonnes populaire. paquet tensorflow-io fournit une implémentation par défaut de la lecture Apache ORC fichiers.


Installez les packages requis et redémarrez le runtime

pip install tensorflow-io
import tensorflow as tf
import tensorflow_io as tfio
Télécharger un exemple de fichier de jeu de données dans ORC

L'ensemble de données que vous utiliserez ici est le Set Iris données de l' UCI. L'ensemble de données contient 3 classes de 50 instances chacune, où chaque classe fait référence à un type de plante d'iris. Il a 4 attributs : (1) longueur de sépale, (2) largeur de sépale, (3) longueur de pétale, (4) largeur de pétale, et la dernière colonne contient l'étiquette de classe.

curl -OL https://github.com/tensorflow/io/raw/master/tests/test_orc/iris.orc
ls -l iris.orc
Créer un jeu de données à partir du fichier

dataset = tfio.IODataset.from_orc("iris.orc", capacity=15).batch(1)
Examinez l'ensemble de données :

for item in dataset.take(1):
(<tf.Tensor: shape=(1,), dtype=float32, numpy=array([5.1], dtype=float32)>, <tf.Tensor: shape=(1,), dtype=float32, numpy=array([3.5], dtype=float32)>, <tf.Tensor: shape=(1,), dtype=float32, numpy=array([1.4], dtype=float32)>, <tf.Tensor: shape=(1,), dtype=float32, numpy=array([0.2], dtype=float32)>, <tf.Tensor: shape=(1,), dtype=string, numpy=array([b'setosa'], dtype=object)>)
Passons en revue un exemple de bout en bout d'entraînement du modèle tf.keras avec un jeu de données ORC basé sur un jeu de données d'iris.

Prétraitement des données

Configurez quelles colonnes sont des fonctionnalités et quelle colonne est libellé :

feature_cols = ["sepal_length", "sepal_width", "petal_length", "petal_width"]
= ["species"]

# select feature columns
= tfio.IODataset.from_orc("iris.orc", columns=feature_cols)
# select label columns
= tfio.IODataset.from_orc("iris.orc", columns=label_cols)
Une fonction util pour mapper les espèces sur des nombres flottants pour la formation de modèles :

vocab_init = tf.lookup.KeyValueTensorInitializer(
=tf.constant(["virginica", "versicolor", "setosa"]),
=tf.constant([0, 1, 2], dtype=tf.int64))
= tf.lookup.StaticVocabularyTable(
label_dataset = label_dataset.map(vocab_table.lookup)
= tf.data.Dataset.zip((feature_dataset, label_dataset))
= dataset.batch(1)

def pack_features_vector(features, labels):
"""Pack the features into a single array."""
= tf.stack(list(features), axis=1)
return features, labels

= dataset.map(pack_features_vector)

Construire, compiler et entraîner le modèle

Enfin, vous êtes prêt à construire le modèle et à l'entraîner ! Vous allez créer un modèle Keras à 3 couches pour prédire la classe de la plante d'iris à partir de l'ensemble de données que vous venez de traiter.

model = tf.keras.Sequential(
10, activation=tf.nn.relu, input_shape=(4,)
.keras.layers.Dense(10, activation=tf.nn.relu),

.compile(optimizer="adam", loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True), metrics=["accuracy"])
.fit(dataset, epochs=5)
