Perkenalan
Runtime TensorFlow memiliki komponen yang diinisialisasi dengan lambat, sehingga dapat menyebabkan latensi tinggi untuk permintaan pertama yang dikirim ke model setelah model dimuat. Latensi ini bisa beberapa kali lipat lebih tinggi dibandingkan permintaan inferensi tunggal.
Untuk mengurangi dampak inisialisasi lambat pada latensi permintaan, inisialisasi subsistem dan komponen dapat dipicu pada waktu muat model dengan menyediakan kumpulan sampel permintaan inferensi bersama dengan SavedModel. Proses ini dikenal sebagai “pemanasan” model.
Penggunaan
Pemanasan SavedModel didukung untuk Regresi, Klasifikasi, MultiInferensi, dan Prediksi. Untuk memicu pemanasan model pada waktu muat, lampirkan file data pemanasan di bawah subfolder assets.extra dari direktori SavedModel.
Persyaratan agar pemanasan model berfungsi dengan benar:
- Nama file pemanasan: 'tf_serving_warmup_requests'
- Lokasi file: aset.extra/
- Format file: TFRecord dengan setiap catatan sebagai PredictionLog .
- Jumlah rekaman pemanasan <= 1000.
- Data pemanasan harus mewakili permintaan inferensi yang digunakan saat penyajian.
Pembuatan data pemanasan
Data pemanasan dapat ditambahkan dengan dua cara:
- Dengan langsung mengisi permintaan pemanasan ke dalam Model Tersimpan yang Anda ekspor. Hal ini dapat dilakukan dengan membuat skrip yang membaca daftar contoh permintaan inferensi, mengonversi setiap permintaan menjadi PredictionLog (jika aslinya dalam format berbeda) dan menggunakan TFRecordWriter untuk menulis entri PredictionLog ke
YourSavedModel/assets.extra/tf_serving_warmup_requests
. - Dengan menggunakan opsi TFX Infra Validator untuk mengekspor Model Tersimpan dengan pemanasan . Dengan opsi ini TFX Infa Validator akan mengisi
YourSavedModel/assets.extra/tf_serving_warmup_requests
berdasarkan permintaan validasi yang diberikan melalui RequestSpec .