StatisticsGen TFX 流水线组件

StatisticsGen TFX 流水线组件根据训练数据和应用数据来生成特征统计信息，以供其他流水线组件使用。StatisticsGen 使用 Beam 来扩展为大型数据集。

使用：由 ExampleGen 流水线组件创建的数据集。
发出：数据集统计信息。

StatisticsGen 和 TensorFlow Data Validation

StatisticsGen 广泛使用 TensorFlow Data Validation 来根据您的数据集生成统计信息。

使用 StatsGen 组件

StatisticsGen 流水线组件通常非常易于部署，而且几乎不需要自定义。典型代码如下所示：

from tfx import components

...

compute_eval_stats = components.StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

将 StatsGen 组件与架构一起使用

当流水线第一次运行时，StatisticsGen 的输出将用于推断架构。不过，在随后的运行中，您可能具有手动选择的架构，其中包含有关数据集的附加信息。通过将此架构提供给 StatisticsGen，TFDV 可以根据数据集的已声明属性提供更多有用的统计信息。

在此设置中，您将使用由 ImporterNode 导入的精选架构调用 StatisticsGen，代码如下所示：

from tfx import components
from tfx.types import standard_artifacts

...

user_schema_importer = components.ImporterNode(
    instance_name='import_user_schema',
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema)

compute_eval_stats = components.StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

创建精选架构

TFX 中的 Schema 是 TensorFlow Metadata Schema proto 的一个实例。这可以从头开始以文本格式创作。但是，将 SchemaGen 生成的推断架构用作起点要容易得多。执行 SchemaGen 组件后，架构将位于以下路径的流水线根目录下：

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

其中，<artifact_id> 表示 MLMD 中此版本架构的唯一 ID。随后，可以修改此架构 proto 以传达有关无法可靠推断的数据集的信息，这样，StatisticsGen 的输出便会更加有用，而且 ExampleValidator 组件中执行的验证也会更加严格。

StatisticsGen TFX 流水线组件 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

StatisticsGen 和 TensorFlow Data Validation

使用 StatsGen 组件

将 StatsGen 组件与架构一起使用

创建精选架构

StatisticsGen TFX 流水线组件