İstatistikGen TFX İşlem Hattı Bileşeni

İstatistikGen TFX işlem hattı bileşeni, diğer işlem hattı bileşenleri tarafından kullanılabilen, hem eğitim hem de hizmet verileri üzerinden özellik istatistikleri oluşturur. İstatistikGen, büyük veri kümelerine ölçeklendirmek için Beam'i kullanır.

  • Tüketim: Bir SampleGen ardışık düzen bileşeni tarafından oluşturulan veri kümeleri.
  • Yayılanlar: Veri kümesi istatistikleri.

İstatistikGen ve TensorFlow Veri Doğrulaması

İstatistikGen, veri kümenizden istatistik oluşturmak için TensorFlow Veri Doğrulama'yı kapsamlı bir şekilde kullanır.

StatsGen Bileşenini Kullanma

Bir İstatistikGen işlem hattı bileşeninin dağıtımı genellikle çok kolaydır ve çok az özelleştirme gerektirir. Tipik kod şuna benzer:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

StatsGen Bileşenini Şemayla Kullanmak

Bir işlem hattının ilk çalıştırılmasında, bir şema çıkarmak için İstatistikGen'in çıktısı kullanılacaktır. Ancak sonraki çalıştırmalarda, veri kümeniz hakkında ek bilgiler içeren, manuel olarak seçilmiş bir şemaya sahip olabilirsiniz. TFDV, bu şemayı İstatistikGen'e sağlayarak, veri kümenizin beyan edilen özelliklerine dayalı olarak daha faydalı istatistikler sağlayabilir.

Bu ayarda, aşağıdaki gibi bir ImporterNode tarafından içe aktarılmış seçilmiş bir şema ile İstatistikGen'i çağıracaksınız:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Seçilmiş Bir Şema Oluşturma

TFX'teki Schema TensorFlow Meta Veri Schema protokolünün bir örneğidir. Bu sıfırdan metin formatında oluşturulabilir. Ancak SchemaGen tarafından üretilen çıkarımsal şemayı başlangıç ​​noktası olarak kullanmak daha kolaydır. SchemaGen bileşeni yürütüldükten sonra şema, aşağıdaki yolda boru hattı kökünün altına yerleştirilecektir:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

Burada <artifact_id> MLMD'deki şemanın bu sürümü için benzersiz bir kimliği temsil eder. Bu şema protokolü daha sonra veri kümesi hakkında güvenilir bir şekilde çıkarılamayan bilgileri iletmek için değiştirilebilir; bu, StatisticsGen çıktısını daha kullanışlı hale getirecek ve ExampleValidator bileşeninde gerçekleştirilen doğrulamayı daha sıkı hale getirecektir.

Daha fazla ayrıntıyı İstatistikGen API referansında bulabilirsiniz.