Beberapa komponen TFX menggunakan deskripsi data masukan Anda yang disebut skema . Skema ini merupakan turunan dari skema.proto . Itu bisa menentukan tipe data untuk nilai fitur, apakah fitur harus ada di semua contoh, rentang nilai yang diizinkan, dan properti lainnya. Komponen alur SchemaGen akan secara otomatis menghasilkan skema dengan menyimpulkan jenis, kategori, dan rentang dari data pelatihan.
- Menggunakan: statistik dari komponen StatisticsGen
- Memancarkan: Proto skema data
Berikut kutipan dari proto skema:
...
feature {
name: "age"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
feature {
name: "capital-gain"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
...
Pustaka TFX berikut menggunakan skema ini:
- Validasi Data TensorFlow
- Transformasi TensorFlow
- Analisis Model TensorFlow
Dalam pipeline TFX biasa, SchemaGen menghasilkan skema, yang digunakan oleh komponen pipeline lainnya. Namun, skema yang dibuat secara otomatis merupakan upaya terbaik dan hanya mencoba menyimpulkan properti dasar data. Diharapkan pengembang meninjau dan memodifikasinya sesuai kebutuhan.
Skema yang dimodifikasi dapat dibawa kembali ke dalam pipeline menggunakan komponen ImportSchemaGen. Komponen SchemaGen untuk pembuatan skema awal dapat dihapus dan semua komponen hilir dapat menggunakan keluaran ImportSchemaGen. Disarankan juga untuk menambahkan ContohValidator menggunakan skema yang diimpor untuk memeriksa data pelatihan secara terus menerus.
Validasi Data SchemaGen dan TensorFlow
SchemaGen banyak menggunakan Validasi Data TensorFlow untuk menyimpulkan skema.
Menggunakan Komponen SchemaGen
Untuk pembuatan skema awal
Komponen pipeline SchemaGen biasanya sangat mudah diterapkan dan memerlukan sedikit penyesuaian. Kode tipikal terlihat seperti ini:
schema_gen = tfx.components.SchemaGen(
statistics=stats_gen.outputs['statistics'])
Detail selengkapnya tersedia di referensi API SchemaGen .
Untuk impor skema yang ditinjau
Tambahkan komponen ImportSchemaGen ke alur untuk membawa definisi skema yang ditinjau ke dalam alur.
schema_gen = tfx.components.ImportSchemaGen(
schema_file='/some/path/schema.pbtxt')
schema_file
harus berupa path lengkap ke file protobuf teks.
Detail selengkapnya tersedia di referensi API ImportSchemaGen .