El componente de canalización de StatisticsGen TFX

El componente de canalización StatisticsGen TFX genera estadísticas de características sobre los datos de entrenamiento y servicio, que pueden ser utilizados por otros componentes de canalización. StatisticsGen usa Beam para escalar a grandes conjuntos de datos.

  • Consume: conjuntos de datos creados por un componente de canalización ExampleGen.
  • Emite: estadísticas del conjunto de datos.

Validación de datos de StatisticsGen y TensorFlow

StatisticsGen hace un amplio uso de TensorFlow validación de datos para la generación de estadísticas de su conjunto de datos.

Uso del componente StatsGen

Un componente de canalización de StatisticsGen suele ser muy fácil de implementar y requiere poca personalización. El código típico se ve así:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

Uso del componente StatsGen con un esquema

Para la primera ejecución de una tubería, la salida de StatisticsGen se usará para inferir un esquema. Sin embargo, en ejecuciones posteriores, es posible que tenga un esquema seleccionado manualmente que contenga información adicional sobre su conjunto de datos. Al proporcionar este esquema a StatisticsGen, TFDV puede proporcionar estadísticas más útiles basadas en las propiedades declaradas de su conjunto de datos.

En esta configuración, invocará a StatisticsGen con un esquema seleccionado que ha sido importado por un ImporterNode como este:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Creación de un esquema curado

Schema en TFX es una instancia de la TensorFlow metadatos Schema proto . Esto puede estar compuesto en formato de texto a partir de cero. Sin embargo, es más fácil de usar el esquema inferido producido por SchemaGen como punto de partida. Una vez que el SchemaGen componente ha ejecutado, el esquema se encuentra en la raíz de la tubería en la siguiente ruta:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

Donde <artifact_id> representa un identificador único para esta versión del esquema de MLMD. Este esquema proto puede ser modificado para comunicar información acerca del conjunto de datos que no se pueden inferir de forma fiable, lo que hará que la salida de StatisticsGen más útil y la validación realizada en el ExampleValidator componente más estrictas.

Más detalles están disponibles en la referencia de la API StatisticsGen .