El componente de canalización TFX de exampleValidator

El componente de canalización ExampleValidator identifica anomalías en el entrenamiento y el servicio de datos. Puede detectar diferentes clases de anomalías en los datos. Por ejemplo, puede:

  1. realizar comprobaciones de validez comparando estadísticas de datos con un esquema que codifica las expectativas del usuario.
  2. Detecte el sesgo entre el entrenamiento y el servicio comparando los datos de entrenamiento y servicio.
  3. detectar la deriva de datos observando una serie de datos.
  4. realizar validaciones personalizadas utilizando una configuración basada en SQL.

El componente de canalización ExampleValidator identifica cualquier anomalía en los datos de ejemplo comparando las estadísticas de datos calculadas por el componente de canalización StatisticsGen con un esquema. El esquema inferido codifica propiedades que se espera que satisfagan los datos de entrada y puede ser modificado por el desarrollador.

  • Consume: un esquema de un componente SchemaGen y estadísticas de un componente StatisticsGen.
  • Emite: resultados de la validación

Validación de datos de ExampleValidator y TensorFlow

ExampleValidator hace un uso extensivo de TensorFlow Data Validation para validar sus datos de entrada.

Uso del componente ExampleValidator

Un componente de canalización ExampleValidator suele ser muy fácil de implementar y requiere poca personalización. El código típico se ve así:

validate_stats = ExampleValidator(
      statistics=statistics_gen.outputs['statistics'],
      schema=schema_gen.outputs['schema']
      )

Hay más detalles disponibles en la referencia de la API de ExampleValidator .