Menggunakan kelas Pipeline
Pipeline TFX ditentukan menggunakan kelas Pipeline
. Contoh berikut menunjukkan cara menggunakan kelas Pipeline
.
pipeline.Pipeline( pipeline_name=pipeline-name, pipeline_root=pipeline-root, components=components, enable_cache=enable-cache, metadata_connection_config=metadata-connection-config, )
Ganti yang berikut ini:
pipeline-name : Nama pipa ini. Nama pipa harus unik.
TFX menggunakan nama pipeline saat mengkueri ML Metadata untuk artefak input komponen. Menggunakan kembali nama jalur pipa dapat menyebabkan perilaku yang tidak diharapkan.
pipeline-root : Jalur root dari keluaran pipeline ini. Jalur root harus merupakan jalur lengkap ke direktori yang dapat diakses oleh orkestra Anda untuk membaca dan menulis. Saat runtime, TFX menggunakan akar pipa untuk menghasilkan jalur keluaran untuk artefak komponen. Direktori ini bisa bersifat lokal, atau pada sistem file terdistribusi yang didukung, seperti Google Cloud Storage atau HDFS.
components : Daftar instance komponen yang membentuk alur kerja pipa ini.
enable-cache : (Opsional.) Nilai boolean yang menunjukkan jika pipeline ini menggunakan caching untuk mempercepat eksekusi pipeline.
metadata-connection-config : (Opsional.) Konfigurasi koneksi untuk Metadata ML.
Mendefinisikan grafik eksekusi komponen
Instance komponen menghasilkan artefak sebagai output dan biasanya bergantung pada artefak yang dihasilkan oleh instance komponen upstream sebagai input. Urutan eksekusi untuk instance komponen ditentukan dengan membuat grafik asiklik terarah (DAG) dari dependensi artefak.
Misalnya, komponen standar ExampleGen
dapat menyerap data dari file CSV dan menghasilkan catatan contoh berseri. Komponen standar StatisticsGen
menerima catatan contoh ini sebagai masukan dan menghasilkan statistik kumpulan data. Dalam contoh ini, instance dari StatisticsGen
harus mengikuti ExampleGen
karena SchemaGen
bergantung pada keluaran dari ExampleGen
.
Ketergantungan berbasis tugas
Anda juga dapat menentukan dependensi berbasis tugas menggunakan metode add_downstream_node
dan add_upstream_node
komponen Anda. add_upstream_node
memungkinkan Anda menentukan bahwa komponen saat ini harus dijalankan setelah komponen yang ditentukan. add_downstream_node
memungkinkan Anda menentukan bahwa komponen saat ini harus dijalankan sebelum komponen yang ditentukan.
Templat saluran pipa
Cara termudah untuk mengatur pipa dengan cepat, dan untuk melihat bagaimana semua bagian cocok satu sama lain, adalah dengan menggunakan templat. Menggunakan template tercakup dalam Membangun TFX Pipeline Secara Lokal .
Caching
Caching pipeline TFX memungkinkan pipeline Anda melewati komponen yang telah dijalankan dengan set input yang sama dalam proses pipeline sebelumnya. Jika caching diaktifkan, pipeline akan mencoba mencocokkan tanda tangan setiap komponen, komponen, dan rangkaian input, dengan salah satu eksekusi komponen pipeline ini sebelumnya. Jika ada kecocokan, pipeline menggunakan output komponen dari proses sebelumnya. Jika tidak ada kecocokan, komponen dijalankan.
Jangan gunakan caching jika pipeline Anda menggunakan komponen non-deterministik. Misalnya, jika Anda membuat komponen untuk membuat nomor acak untuk pipeline Anda, mengaktifkan cache akan menyebabkan komponen ini dieksekusi sekali. Dalam contoh ini, proses selanjutnya menggunakan nomor acak proses pertama alih-alih menghasilkan nomor acak.