Komponen pipeline TFX StatisticsGen menghasilkan statistik fitur pada data pelatihan dan penyajian, yang dapat digunakan oleh komponen pipeline lainnya. StatisticsGen menggunakan Beam untuk menskalakan ke kumpulan data besar.
- Konsumsi: kumpulan data yang dibuat oleh komponen pipeline ExampleGen.
- Memancarkan: Statistik kumpulan data.
Validasi Data StatisticsGen dan TensorFlow
StatisticsGen membuat ekstensif menggunakan TensorFlow Validasi Data untuk menghasilkan statistik dari dataset Anda.
Menggunakan Komponen StatsGen
Komponen pipeline StatisticsGen biasanya sangat mudah diterapkan dan memerlukan sedikit penyesuaian. Kode khas terlihat seperti ini:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
Menggunakan Komponen StatsGen Dengan Skema
Untuk menjalankan pipa pertama, output dari StatisticsGen akan digunakan untuk menyimpulkan skema. Namun, pada proses berikutnya Anda mungkin memiliki skema yang dikuratori secara manual yang berisi informasi tambahan tentang kumpulan data Anda. Dengan memberikan skema ini ke StatisticsGen, TFDV dapat memberikan statistik yang lebih berguna berdasarkan properti yang dideklarasikan dari kumpulan data Anda.
Dalam pengaturan ini, Anda akan memanggil StatisticsGen dengan skema kurasi yang telah diimpor oleh ImporterNode seperti ini:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
Membuat Skema Terkurasi
Schema
di TFX adalah turunan dari TensorFlow Metadata Schema
proto . Hal ini dapat disusun dalam format teks dari awal. Namun, lebih mudah untuk menggunakan skema disimpulkan diproduksi oleh SchemaGen
sebagai titik awal. Setelah SchemaGen
komponen telah dieksekusi, skema akan berada di bawah akar pipa di lintasan berikut:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
Di mana <artifact_id>
merupakan ID unik untuk versi ini skema di MLMD. Skema proto ini kemudian dapat dimodifikasi untuk mengkomunikasikan informasi tentang dataset yang tidak dapat dipercaya disimpulkan, yang akan membuat output dari StatisticsGen
lebih berguna dan validasi dilakukan di ExampleValidator
komponen yang lebih ketat.
Keterangan lebih lanjut tersedia di StatisticsGen API referensi .