Ta strona została przetłumaczona przez Cloud Translation API.
Switch to English

Składnik SchemaGen TFX Pipeline

Niektóre komponenty TFX używają opisu danych wejściowych zwanego schematem . Schemat jest instancją schema.proto . Może określać typy danych dla wartości funkcji, czy funkcja ma być obecna we wszystkich przykładach, dozwolone zakresy wartości i inne właściwości. Składnik potoku SchemaGen automatycznie wygeneruje schemat na podstawie typów, kategorii i zakresów na podstawie danych szkoleniowych.

  • Zużywa: statystyki ze składnika StatisticsGen
  • Emituje: Protokół danych schematu

Oto fragment prototypu schematu:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

Poniższe biblioteki TFX używają schematu:

  • Walidacja danych TensorFlow
  • Transformacja TensorFlow
  • Analiza modelu TensorFlow

W typowym potoku TFX SchemaGen generuje schemat, który jest używany przez inne składniki potoku.

Walidacja danych SchemaGen i TensorFlow

SchemaGen w szerokim zakresie wykorzystuje walidację danych TensorFlow do wnioskowania o schemacie.

Korzystanie ze składnika SchemaGen

Składnik potoku SchemaGen jest zwykle bardzo łatwy do wdrożenia i wymaga niewielkiego dostosowania. Typowy kod wygląda następująco:

from tfx import components

...

infer_schema = components.SchemaGen(
    statistics=compute_training_stats.outputs['statistics'])