Le composant de pipeline TFX ExampleValidator

Le composant de pipeline ExampleValidator identifie les anomalies dans les données d'entraînement et de diffusion. Il peut détecter différentes classes d'anomalies dans les données. Par exemple il peut :

  1. effectuer des contrôles de validité en comparant les statistiques des données à un schéma qui codifie les attentes de l'utilisateur
  2. détecter le biais de diffusion d'entraînement en comparant les données d'entraînement et de diffusion.
  3. détecter la dérive des données en examinant une série de données.

Le composant de pipeline ExampleValidator identifie toute anomalie dans les exemples de données en comparant les statistiques de données calculées par le composant de pipeline StatisticsGen avec un schéma. Le schéma inféré codifie les propriétés que les données d'entrée sont censées satisfaire et peut être modifié par le développeur.

  • Consomme : un schéma d'un composant SchemaGen et des statistiques d'un composant StatisticsGen.
  • Émet : résultats de la validation

Exemple de validation de données Validator et TensorFlow

ExampleValidator fait un usage intensif de tensorflow Validation des données pour valider vos données d'entrée.

Utilisation du composant ExampleValidator

Un composant de pipeline ExampleValidator est généralement très facile à déployer et nécessite peu de personnalisation. Le code typique ressemble à ceci :

validate_stats = ExampleValidator(
      statistics=statistics_gen.outputs['statistics'],
      schema=schema_gen.outputs['schema']
      )

Plus de détails sont disponibles dans la référence API ExampleValidator .