Se usó la API de Cloud Translation para traducir esta página.

Transformaciones comunes

En este documento describimos cómo hacer transformaciones comunes con tf.transform.

Suponemos que ya ha construido la canalización de vigas siguiendo las líneas de los ejemplos, y solo describe lo que debe agregarse a preprocessing_fn y posiblemente al modelo.

Uso de datos de cadena/categóricos

El siguiente preprocessing_fn calculará un vocabulario sobre los valores de la característica x con tokens en orden de frecuencia descendente, convertirá los valores de la característica x a su índice en el vocabulario y, finalmente, realizará una codificación one-hot para la salida.

Esto es común, por ejemplo, en casos de uso donde la característica de la etiqueta es una cadena categórica. La codificación one-hot resultante está lista para el entrenamiento.

def preprocessing_fn(inputs):
  integerized = tft.compute_and_apply_vocabulary(
      inputs['x'],
      num_oov_buckets=1,
      vocab_filename='x_vocab')
  one_hot_encoded = tf.one_hot(
      integerized,
      depth=tf.cast(tft.experimental.get_vocabulary_size_by_name('x_vocab') + 1,
                    tf.int32),
      on_value=1.0,
      off_value=0.0)
  return {
    'x_out': one_hot_encoded,
  }

Imputación media de los datos faltantes

En este ejemplo, la función x es una función opcional, representada como tf.SparseTensor en preprocessing_fn . Para convertirlo en un tensor denso, calculamos su media y establecemos la media como el valor predeterminado cuando falta en una instancia.

El tensor denso resultante tendrá la forma [None, 1] , None representa la dimensión del lote, y para la segunda dimensión será el número de valores que puede tener x por instancia. En este caso es 1.

def preprocessing_fn(inputs):
  return {
      'x_out': tft.sparse_tensor_to_dense_with_shape(
          inputs['x'], default_value=tft.mean(x), shape=[None, 1])
  }