O componente de pipeline ExampleValidator identifica anomalias no treinamento e no fornecimento de dados. Ele pode detectar diferentes classes de anomalias nos dados. Por exemplo, pode:
- realizar verificações de validade comparando estatísticas de dados com um esquema que codifica as expectativas do usuário.
- detecte distorções no fornecimento de treinamento comparando dados de treinamento e fornecimento.
- detectar desvios de dados observando uma série de dados.
- execute validações personalizadas usando uma configuração baseada em SQL.
O componente de pipeline ExampleValidator identifica quaisquer anomalias nos dados de exemplo comparando estatísticas de dados calculadas pelo componente de pipeline StatisticsGen com um esquema. O esquema inferido codifica propriedades que se espera que os dados de entrada satisfaçam e podem ser modificados pelo desenvolvedor.
- Consome: um esquema de um componente SchemaGen e estatísticas de um componente StatisticsGen.
- Emite: resultados de validação
Exemplo de validação de dados do TensorFlow e Validator
ExampleValidator faz uso extensivo da validação de dados do TensorFlow para validar seus dados de entrada.
Usando o componente ExemploValidator
Um componente de pipeline ExampleValidator normalmente é muito fácil de implantar e requer pouca personalização. O código típico é assim:
validate_stats = ExampleValidator(
statistics=statistics_gen.outputs['statistics'],
schema=schema_gen.outputs['schema']
)
Mais detalhes estão disponíveis na referência da API ExampleValidator .