Ta strona została przetłumaczona przez Cloud Translation API.
Switch to English

Składnik potoków StatisticsGen TFX

Składnik potoku StatisticsGen TFX generuje statystyki funkcji dotyczące zarówno danych uczących, jak i udostępniających, które mogą być używane przez inne składniki potoku. StatisticsGen używa Beam do skalowania do dużych zbiorów danych.

  • Zużywa: zestawy danych utworzone przez składnik potoku ExampleGen.
  • Emisje: statystyki zbioru danych.

Weryfikacja danych StatisticsGen i TensorFlow

StatisticsGen w szerokim zakresie korzysta z TensorFlow Data Validation do generowania statystyk na podstawie zbioru danych.

Korzystanie ze składnika StatsGen

Składnik potoku StatisticsGen jest zwykle bardzo łatwy do wdrożenia i wymaga niewielkich dostosowań. Typowy kod wygląda następująco:

from tfx import components

...

compute_eval_stats = components.StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

Używanie składnika StatsGen ze schematem

W przypadku pierwszego uruchomienia potoku dane wyjściowe StatisticsGen zostaną użyte do wywnioskowania schematu. Jednak przy kolejnych uruchomieniach może istnieć ręcznie wybrany schemat zawierający dodatkowe informacje o zestawie danych. Dostarczając ten schemat do StatisticsGen, TFDV może zapewnić bardziej przydatne statystyki w oparciu o zadeklarowane właściwości zestawu danych.

W tym ustawieniu wywołasz StatisticsGen z wyselekcjonowanym schematem, który został zaimportowany przez ImporterNode w następujący sposób:

from tfx import components
from tfx.types import standard_artifacts

...

user_schema_importer = components.ImporterNode(
    instance_name='import_user_schema',
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema)

compute_eval_stats = components.StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Tworzenie wyselekcjonowanego schematu

Schema w TFX jest instancją protokołu TensorFlow Metadata Schema . Można to od podstaw ułożyć w formacie tekstowym . Jednak łatwiej jest użyć wywnioskowanego schematu utworzonego przez SchemaGen jako punktu wyjścia. Po SchemaGen składnika SchemaGen schemat zostanie umieszczony w katalogu głównym potoku w następującej ścieżce:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

Gdzie <artifact_id> reprezentuje unikalny identyfikator dla tej wersji schematu w MLMD. Ten schemat schematu można następnie zmodyfikować w celu przekazania informacji o zestawie danych, których nie można wiarygodnie wywnioskować, co sprawi, że dane wyjściowe StatisticsGen bardziej przydatne, a walidacja wykonana w składniku ExampleValidator bardziej rygorystyczna.