Beberapa komponen TFX menggunakan deskripsi data masukan Anda disebut skema. Skema adalah turunan dari schema.proto . Itu bisa menentukan tipe data untuk nilai fitur, apakah fitur harus ada di semua contoh, rentang nilai yang diizinkan, dan properti lainnya. Komponen pipeline SchemaGen akan secara otomatis menghasilkan skema dengan menyimpulkan jenis, kategori, dan rentang dari data pelatihan.
- Konsumsi: statistik dari komponen StatisticsGen
- Memancarkan: Proto skema data
Berikut kutipan dari proto skema:
...
feature {
name: "age"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
feature {
name: "capital-gain"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
...
Pustaka TFX berikut menggunakan skema:
- Validasi Data TensorFlow
- Transformasi TensorFlow
- Analisis Model TensorFlow
Dalam skema pipa TFX khas, SchemaGen menghasilkan skema, yang dikonsumsi oleh komponen pipa lainnya. Namun, skema yang dibuat secara otomatis adalah upaya terbaik dan hanya mencoba menyimpulkan properti dasar data. Diharapkan pengembang meninjau dan memodifikasinya sesuai kebutuhan.
Skema yang dimodifikasi dapat dibawa kembali ke dalam pipeline menggunakan komponen ImportSchemaGen. Komponen SchemaGen untuk pembuatan skema awal dapat dihapus dan semua komponen hilir dapat menggunakan output ImportSchemaGen. Hal ini juga dianjurkan untuk menambahkan ExampleValidator menggunakan skema diimpor untuk memeriksa data pelatihan terus menerus.
Validasi Data SchemaGen dan TensorFlow
SchemaGen membuat ekstensif menggunakan TensorFlow Validasi Data untuk menyimpulkan skema.
Menggunakan Komponen SchemaGen
Untuk pembuatan skema awal
Komponen pipeline SchemaGen biasanya sangat mudah diterapkan dan memerlukan sedikit penyesuaian. Kode khas terlihat seperti ini:
schema_gen = tfx.components.SchemaGen(
statistics=stats_gen.outputs['statistics'])
Keterangan lebih lanjut tersedia di SchemaGen API referensi .
Untuk impor skema yang ditinjau
Tambahkan komponen ImportSchemaGen ke pipeline untuk membawa definisi skema yang ditinjau ke dalam pipeline.
schema_gen = tfx.components.ImportSchemaGen(
schema_file='/some/path/schema.pbtxt')
The schema_file
harus path lengkap ke file protobuf teks.
Keterangan lebih lanjut tersedia di ImportSchemaGen API referensi .