Компонент конвейераStatisticGen TFX генерирует статистику функций как по обучающим, так и по обслуживающим данным, которая может использоваться другими компонентами конвейера. СтатистикаGen использует Beam для масштабирования до больших наборов данных.
- Потребляет: наборы данных, созданные компонентом конвейера SampleGen.
- Выдает: статистику набора данных.
Проверка данныхStatisticGen и TensorFlow
СтатистикаGen широко использует проверку данных TensorFlow для генерации статистики из вашего набора данных.
Использование компонента StatsGen
Компонент конвейераStatisticGen обычно очень прост в развертывании и требует незначительной настройки. Типичный код выглядит так:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
Использование компонента StatsGen со схемой
При первом запуске конвейера выходные данные СтатистикаGen будут использоваться для вывода схемы. Однако при последующих запусках у вас может быть созданная вручную схема, содержащая дополнительную информацию о вашем наборе данных. Предоставляя эту схему вStatisticGen, TFDV может предоставить более полезную статистику на основе объявленных свойств вашего набора данных.
В этом параметре вы вызоветеStatisticsGen с курируемой схемой, которая была импортирована с помощью ImporterNode следующим образом:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
Создание курируемой схемы
Schema
в TFX — это экземпляр прототипа Schema
метаданных TensorFlow. Его можно составить в текстовом формате с нуля. Однако в качестве отправной точки проще использовать выведенную схему, созданную SchemaGen
. После выполнения компонента SchemaGen
схема будет расположена в корне конвейера по следующему пути:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
Где <artifact_id>
представляет собой уникальный идентификатор для этой версии схемы в MLMD. Затем этот прототип схемы можно изменить для передачи информации о наборе данных, которую невозможно достоверно вывести, что сделает выходные данные StatisticsGen
более полезными, а проверку, выполняемую в компоненте ExampleValidator
, более строгой.
Более подробную информацию можно найти в справочнике по APIStatisticsGen .