Validasi Data TensorFlow

Lihat di GitHub

Validasi Data TensorFlow (TFDV) adalah perpustakaan untuk menjelajahi dan memvalidasi data pembelajaran mesin. Ini dirancang agar sangat skalabel dan berfungsi baik dengan TensorFlow dan TensorFlow Extended (TFX) .

Validasi Data TF meliputi:

  • Perhitungan terukur dari statistik ringkasan data pelatihan dan pengujian.
  • Integrasi dengan penampil untuk distribusi data dan statistik, serta perbandingan pasangan fitur ( Aspek )
  • Pembuatan skema data otomatis untuk mendeskripsikan ekspektasi tentang data seperti nilai, rentang, dan kosakata yang diperlukan
  • Penampil skema untuk membantu Anda memeriksa skema.
  • Deteksi anomali untuk mengidentifikasi anomali, seperti fitur yang hilang, nilai di luar rentang, atau jenis fitur yang salah, dan masih banyak lagi.
  • Penampil anomali sehingga Anda dapat melihat fitur apa saja yang memiliki anomali dan mempelajari lebih lanjut untuk memperbaikinya.

Untuk petunjuk penggunaan TFDV, lihat panduan memulai dan coba contoh buku catatan . Beberapa teknik yang diterapkan di TFDV dijelaskan dalam makalah teknis yang diterbitkan di SysML'19 .

Menginstal dari PyPI

Cara yang disarankan untuk menginstal TFDV adalah menggunakan paket PyPI :

pip install tensorflow-data-validation

Paket Malam

TFDV juga menyelenggarakan paket malam di Google Cloud. Untuk menginstal paket nightly terbaru, silakan gunakan perintah berikut:

export TFX_DEPENDENCY_SELECTOR=NIGHTLY
pip install --extra-index-url https://pypi-nightly.tensorflow.org/simple tensorflow-data-validation

Ini akan menginstal paket nightly untuk dependensi utama TFDV seperti TensorFlow Metadata (TFMD) dan TFX Basic Shared Libraries (TFX-BSL).

Terkadang TFDV menggunakan perubahan terbaru dependensi tersebut, yang belum dirilis. Oleh karena itu, lebih aman menggunakan versi nightly dari pustaka dependen tersebut saat menggunakan TFDV nightly. Ekspor variabel lingkungan TFX_DEPENDENCY_SELECTOR untuk melakukannya.

Bangun dengan Docker

Ini adalah cara yang disarankan untuk membangun TFDV di Linux, dan terus diuji di Google.

1. Instal Docker

Silakan instal terlebih dahulu docker dan docker-compose dengan mengikuti petunjuk: docker ; komposisi buruh pelabuhan .

2. Kloning repositori TFDV

git clone https://github.com/tensorflow/data-validation
cd data-validation

Perhatikan bahwa petunjuk ini akan menginstal cabang master terbaru dari Validasi Data TensorFlow. Jika Anda ingin menginstal cabang tertentu (seperti cabang rilis), teruskan -b <branchname> ke perintah git clone .

3. Bangun paket pip

Kemudian, jalankan perintah berikut di root proyek:

sudo docker-compose build manylinux2010
sudo docker-compose run -e PYTHON_VERSION=${PYTHON_VERSION} manylinux2010

di mana PYTHON_VERSION adalah salah satu dari {39, 310, 311} .

Sebuah roda akan diproduksi di bawah dist/ .

4. Instal paket pip

pip install dist/*.whl

Bangun dari sumber

1. Prasyarat

Untuk mengkompilasi dan menggunakan TFDV, Anda perlu menyiapkan beberapa prasyarat.

Instal NumPy

Jika NumPy belum terinstal di sistem Anda, instal sekarang dengan mengikuti petunjuk berikut .

Instal Bazel

Jika Bazel belum terinstal di sistem Anda, instal sekarang dengan mengikuti petunjuk berikut .

2. Kloning repositori TFDV

git clone https://github.com/tensorflow/data-validation
cd data-validation

Perhatikan bahwa petunjuk ini akan menginstal cabang master terbaru dari Validasi Data TensorFlow. Jika Anda ingin menginstal cabang tertentu (seperti cabang rilis), teruskan -b <branchname> ke perintah git clone .

3. Bangun paket pip

Roda TFDV bergantung pada versi Python -- untuk membuat paket pip yang berfungsi untuk versi Python tertentu, gunakan biner Python tersebut untuk menjalankan:

python setup.py bdist_wheel

Anda dapat menemukan file .whl yang dihasilkan di subdirektori dist .

4. Instal paket pip

pip install dist/*.whl

Platform yang didukung

TFDV diuji pada sistem operasi 64-bit berikut:

  • macOS 12.5 (Monterey) atau lebih baru.
  • Ubuntu 20.04 atau lebih baru.

Ketergantungan Penting

TensorFlow diperlukan.

Apache Beam diperlukan; itulah cara komputasi terdistribusi yang efisien didukung. Secara default, Apache Beam berjalan dalam mode lokal tetapi juga dapat berjalan dalam mode terdistribusi menggunakan Google Cloud Dataflow dan runner Apache Beam lainnya.

Apache Arrow juga diperlukan. TFDV menggunakan Panah untuk mewakili data secara internal untuk memanfaatkan fungsi numpy yang divektorkan.

Versi yang kompatibel

Tabel berikut menunjukkan versi paket yang kompatibel satu sama lain. Hal ini ditentukan oleh kerangka pengujian kami, namun kombinasi lain yang belum teruji juga dapat berfungsi.

validasi data tensorflow apache-beam[gcp] pyarrow aliran tensor tensorflow-metadata transformasi tensorflow tfx-bsl
master GitHub 2.47.0 10.0.0 setiap malam (1.x/2.x) 1.15.0 tidak ada 1.15.1
1.15.1 2.47.0 10.0.0 2.15 1.15.0 tidak ada 1.15.1
1.15.0 2.47.0 10.0.0 2.15 1.15.0 tidak ada 1.15.0
1.14.0 2.47.0 10.0.0 2.13 1.14.0 tidak ada 1.14.0
1.13.0 2.40.0 6.0.0 2.12 1.13.1 tidak ada 1.13.0
1.12.0 2.40.0 6.0.0 2.11 1.12.0 tidak ada 1.12.0
1.11.0 2.40.0 6.0.0 1.15 / 2.10 1.11.0 tidak ada 1.11.0
1.10.0 2.40.0 6.0.0 1.15 / 2.9 1.10.0 tidak ada 1.10.1
1.9.0 2.38.0 5.0.0 1.15 / 2.9 1.9.0 tidak ada 1.9.0
1.8.0 2.38.0 5.0.0 1.15 / 2.8 1.8.0 tidak ada 1.8.0
1.7.0 2.36.0 5.0.0 1.15 / 2.8 1.7.0 tidak ada 1.7.0
1.6.0 2.35.0 5.0.0 1.15 / 2.7 1.6.0 tidak ada 1.6.0
1.5.0 2.34.0 2.0.0 1.15 / 2.7 1.5.0 tidak ada 1.5.0
1.4.0 2.32.0 2.0.0 1.15 / 2.6 1.4.0 tidak ada 1.4.0
1.3.0 2.32.0 2.0.0 1.15 / 2.6 1.2.0 tidak ada 1.3.0
1.2.0 2.31.0 2.0.0 1,15 / 2,5 1.2.0 tidak ada 1.2.0
1.1.1 2.29.0 2.0.0 1,15 / 2,5 1.1.0 tidak ada 1.1.1
1.1.0 2.29.0 2.0.0 1,15 / 2,5 1.1.0 tidak ada 1.1.0
1.0.0 2.29.0 2.0.0 1,15 / 2,5 1.0.0 tidak ada 1.0.0
0.30.0 2.28.0 2.0.0 1.15 / 2.4 0.30.0 tidak ada 0.30.0
0.29.0 2.28.0 2.0.0 1.15 / 2.4 0.29.0 tidak ada 0.29.0
0.28.0 2.28.0 2.0.0 1.15 / 2.4 0.28.0 tidak ada 0.28.1
0.27.0 2.27.0 2.0.0 1.15 / 2.4 0.27.0 tidak ada 0.27.0
0.26.1 2.28.0 0.17.0 1.15 / 2.3 0.26.0 0.26.0 0.26.0
0.26.0 2.25.0 0.17.0 1.15 / 2.3 0.26.0 0.26.0 0.26.0
0.25.0 2.25.0 0.17.0 1.15 / 2.3 0.25.0 0.25.0 0.25.0
0.24.1 2.24.0 0.17.0 1.15 / 2.3 0.24.0 0.24.1 0.24.1
0.24.0 2.23.0 0.17.0 1.15 / 2.3 0.24.0 0.24.0 0.24.0
0.23.1 2.24.0 0.17.0 1.15 / 2.3 0.23.0 0.23.0 0.23.0
0.23.0 2.23.0 0.17.0 1.15 / 2.3 0.23.0 0.23.0 0.23.0
0.22.2 2.20.0 0.16.0 1.15 / 2.2 0.22.0 0.22.0 0.22.1
0.22.1 2.20.0 0.16.0 1.15 / 2.2 0.22.0 0.22.0 0.22.1
0.22.0 2.20.0 0.16.0 1.15 / 2.2 0.22.0 0.22.0 0.22.0
0.21.5 2.17.0 0.15.0 1.15 / 2.1 0.21.0 0.21.1 0.21.3
0.21.4 2.17.0 0.15.0 1.15 / 2.1 0.21.0 0.21.1 0.21.3
0.21.2 2.17.0 0.15.0 1.15 / 2.1 0.21.0 0.21.0 0.21.0
0.21.1 2.17.0 0.15.0 1.15 / 2.1 0.21.0 0.21.0 0.21.0
0.21.0 2.17.0 0.15.0 1.15 / 2.1 0.21.0 0.21.0 0.21.0
0.15.0 2.16.0 0.14.0 1.15 / 2.0 0.15.0 0.15.0 0.15.0
0.14.1 2.14.0 0.14.0 1.14 0.14.0 0.14.0 tidak ada
0.14.0 2.14.0 0.14.0 1.14 0.14.0 0.14.0 tidak ada
0.13.1 2.11.0 tidak ada 1.13 0.12.1 0.13.0 tidak ada
0.13.0 2.11.0 tidak ada 1.13 0.12.1 0.13.0 tidak ada
0.12.0 2.10.0 tidak ada 1.12 0.12.1 0.12.0 tidak ada
0.11.0 2.8.0 tidak ada 1.11 0.9.0 0.11.0 tidak ada
0.9.0 2.6.0 tidak ada 1.9 tidak ada tidak ada tidak ada

Pertanyaan

Harap ajukan pertanyaan apa pun tentang bekerja dengan Validasi Data TF ke Stack Overflow menggunakan tag validasi data tensorflow .