ExampleValidator パイプライン コンポーネントは、トレーニング データと提供データの異常を特定します。データ内のさまざまなクラスの異常を検出できます。たとえば、次のことが可能です。
- ユーザーの期待を体系化したスキーマとデータ統計を比較することにより、有効性チェックを実行します。
- トレーニング データとサービング データを比較することで、トレーニングとサービングのスキューを検出します。
- 一連のデータを調べてデータ ドリフトを検出します。
- SQL ベースの構成を使用してカスタム検証を実行します。
ExampleValidator パイプライン コンポーネントは、StatisticsGen パイプライン コンポーネントによって計算されたデータ統計をスキーマと比較することにより、サンプル データ内の異常を特定します。推論されたスキーマは、入力データが満たすことが期待されるプロパティを体系化し、開発者が変更できます。
- 使用するもの: SchemaGen コンポーネントからのスキーマ、および StatisticsGen コンポーネントからの統計。
- 放出: 検証結果
ExampleValidator と TensorFlow データ検証
ExampleValidator は、入力データを検証するためにTensorFlow データ検証を広範囲に利用します。
ExampleValidator コンポーネントの使用
ExampleValidator パイプライン コンポーネントは通常、非常に簡単にデプロイでき、カスタマイズはほとんど必要ありません。典型的なコードは次のようになります。
validate_stats = ExampleValidator(
statistics=statistics_gen.outputs['statistics'],
schema=schema_gen.outputs['schema']
)
詳細については、 「ExampleValidator API リファレンス」を参照してください。