Komponen Saluran TFX SchemaGen

Beberapa komponen TFX menggunakan deskripsi data masukan Anda yang disebut skema . Skema ini merupakan turunan dari skema.proto . Itu bisa menentukan tipe data untuk nilai fitur, apakah fitur harus ada di semua contoh, rentang nilai yang diizinkan, dan properti lainnya. Komponen alur SchemaGen akan secara otomatis menghasilkan skema dengan menyimpulkan jenis, kategori, dan rentang dari data pelatihan.

  • Menggunakan: statistik dari komponen StatisticsGen
  • Memancarkan: Proto skema data

Berikut kutipan dari proto skema:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

Pustaka TFX berikut menggunakan skema ini:

  • Validasi Data TensorFlow
  • Transformasi TensorFlow
  • Analisis Model TensorFlow

Dalam pipeline TFX biasa, SchemaGen menghasilkan skema, yang digunakan oleh komponen pipeline lainnya. Namun, skema yang dibuat secara otomatis merupakan upaya terbaik dan hanya mencoba menyimpulkan properti dasar data. Diharapkan pengembang meninjau dan memodifikasinya sesuai kebutuhan.

Skema yang dimodifikasi dapat dibawa kembali ke dalam pipeline menggunakan komponen ImportSchemaGen. Komponen SchemaGen untuk pembuatan skema awal dapat dihapus dan semua komponen hilir dapat menggunakan keluaran ImportSchemaGen. Disarankan juga untuk menambahkan ContohValidator menggunakan skema yang diimpor untuk memeriksa data pelatihan secara terus menerus.

Validasi Data SchemaGen dan TensorFlow

SchemaGen banyak menggunakan Validasi Data TensorFlow untuk menyimpulkan skema.

Menggunakan Komponen SchemaGen

Untuk pembuatan skema awal

Komponen pipeline SchemaGen biasanya sangat mudah diterapkan dan memerlukan sedikit penyesuaian. Kode tipikal terlihat seperti ini:

schema_gen = tfx.components.SchemaGen(
    statistics=stats_gen.outputs['statistics'])

Detail selengkapnya tersedia di referensi API SchemaGen .

Untuk impor skema yang ditinjau

Tambahkan komponen ImportSchemaGen ke alur untuk membawa definisi skema yang ditinjau ke dalam alur.

schema_gen = tfx.components.ImportSchemaGen(
    schema_file='/some/path/schema.pbtxt')

schema_file harus berupa path lengkap ke file protobuf teks.

Detail selengkapnya tersedia di referensi API ImportSchemaGen .