ExampleValidator TFX パイプライン コンポーネント

ExampleValidator パイプライン コンポーネントは、トレーニング データと提供データの異常を特定します。データ内のさまざまなクラスの異常を検出できます。たとえば、次のことが可能です。

  1. ユーザーの期待を体系化したスキーマとデータ統計を比較することにより、有効性チェックを実行します。
  2. トレーニング データとサービング データを比較することで、トレーニングとサービングのスキューを検出します。
  3. 一連のデータを調べてデータ ドリフトを検出します。
  4. SQL ベースの構成を使用してカスタム検証を実行します。

ExampleValidator パイプライン コンポーネントは、StatisticsGen パイプライン コンポーネントによって計算されたデータ統計をスキーマと比較することにより、サンプル データ内の異常を特定します。推論されたスキーマは、入力データが満たすことが期待されるプロパティを体系化し、開発者が変更できます。

  • 使用するもの: SchemaGen コンポーネントからのスキーマ、および StatisticsGen コンポーネントからの統計。
  • 放出: 検証結果

ExampleValidator と TensorFlow データ検証

ExampleValidator は、入力データを検証するためにTensorFlow データ検証を広範囲に利用します。

ExampleValidator コンポーネントの使用

ExampleValidator パイプライン コンポーネントは通常、非常に簡単にデプロイでき、カスタマイズはほとんど必要ありません。典型的なコードは次のようになります。

validate_stats = ExampleValidator(
      statistics=statistics_gen.outputs['statistics'],
      schema=schema_gen.outputs['schema']
      )

詳細については、 「ExampleValidator API リファレンス」を参照してください。