Transformacja TensorFlow

Zobacz na GitHubie

TensorFlow Transform to biblioteka do wstępnego przetwarzania danych za pomocą TensorFlow. tf.Transform jest przydatny w przypadku danych wymagających pełnego przebiegu, takich jak:

  • Normalizuj wartość wejściową za pomocą średniej i odchylenia standardowego.
  • Konwertuj ciągi na liczby całkowite, generując słownik dla wszystkich wartości wejściowych.
  • Konwertuj liczby zmiennoprzecinkowe na liczby całkowite, przypisując je do segmentów na podstawie zaobserwowanego rozkładu danych.

TensorFlow ma wbudowaną obsługę manipulacji pojedynczym przykładem lub partią przykładów. tf.Transform rozszerza te możliwości, aby obsługiwać pełne przebiegi na przykładowych danych.

Dane wyjściowe tf.Transform są eksportowane jako wykres TensorFlow do wykorzystania podczas szkolenia i udostępniania. Używanie tego samego wykresu do treningu i serwowania może zapobiec zniekształceniom, ponieważ na obu etapach stosowane są te same przekształcenia.

Wprowadzenie do tf.Transform można znaleźć w sekcji tf.Transform wykładu TFX Dev Summit na TFX ( link ).

Instalacja

Zalecanym sposobem instalacji tf.Transform jest pakiet PyPI tensorflow-transform :

pip install tensorflow-transform

Zbuduj TFT ze źródła

Aby zbudować ze źródła, wykonaj następujące kroki: Utwórz środowisko wirtualne, uruchamiając polecenia

python3 -m venv <virtualenv_name>
source <virtualenv_name>/bin/activate
pip3 install setuptools wheel
git clone https://github.com/tensorflow/transform.git
cd transform
python3 setup.py bdist_wheel

Spowoduje to utworzenie koła TFT w katalogu dis. Aby zainstalować koło z katalogu dist, uruchom polecenia

cd dist
pip3 install tensorflow_transform-<version>-py3-none-any.whl

Pakiety nocne

TFT udostępnia także pakiety nocne pod adresem https://pypi-nightly.tensorflow.org w Google Cloud. Aby zainstalować najnowszy pakiet nightly, użyj następującego polecenia:

pip install --extra-index-url https://pypi-nightly.tensorflow.org/simple tensorflow-transform

Spowoduje to zainstalowanie pakietów nocnych dla głównych zależności TFT, takich jak metadane TensorFlow (TFMD), podstawowe biblioteki współdzielone TFX (TFX-BSL).

Godne uwagi zależności

Wymagany jest TensorFlow.

Wymagany jest Apache Beam ; w ten sposób obsługiwane są wydajne obliczenia rozproszone. Domyślnie Apache Beam działa w trybie lokalnym, ale może również działać w trybie rozproszonym, korzystając z Google Cloud Dataflow i innych modułów uruchamiających Apache Beam.

Wymagany jest także Apache Arrow . TFT używa Arrow do wewnętrznej reprezentacji danych w celu wykorzystania wektorowych funkcji numpy.

Kompatybilne wersje

W poniższej tabeli przedstawiono wersje pakietów tf.Transform , które są ze sobą kompatybilne. Jest to określane w naszych ramach testowych, ale inne nieprzetestowane kombinacje mogą również działać.

transformacja tensorflow Apache-beam[gcp] pirar przepływ tensorowy metadane tensorflow tfx-bsl
Mistrz GitHuba 2.47.0 10.0.0 co noc (2.x) 1.15.0 1.15.1
1.15.0 2.47.0 10.0.0 2.15 1.15.0 1.15.1
1.14.0 2.47.0 10.0.0 2.13 1.14.0 1.14.0
1.13.0 2.41.0 6.0.0 2.12 1.13.1 1.13.0
1.12.0 2.41.0 6.0.0 2.11 1.12.0 1.12.0
1.11.0 2.41.0 6.0.0 1.15.5 / 2.10 1.11.0 1.11.0
1.10.0 2.40.0 6.0.0 1.15.5 / 2.9 1.10.0 1.10.0
1.9.0 2.38.0 5.0.0 1.15.5 / 2.9 1.9.0 1.9.0
1.8.0 2.38.0 5.0.0 1.15.5 / 2.8 1.8.0 1.8.0
1.7.0 2.36.0 5.0.0 1.15.5 / 2.8 1.7.0 1.7.0
1.6.1 2.35.0 5.0.0 1.15.5 / 2.8 1.6.0 1.6.0
1.6.0 2.35.0 5.0.0 1.15.5 / 2.7 1.6.0 1.6.0
1.5.0 2.34.0 5.0.0 1.15.2 / 2.7 1.5.0 1.5.0
1.4.1 2.33.0 4.0.1 1.15.2 / 2.6 1.4.0 1.4.0
1.4.0 2.33.0 4.0.1 1.15.2 / 2.6 1.4.0 1.4.0
1.3.0 2.31.0 2.0.0 1.15.2 / 2.6 1.2.0 1.3.0
1.2.0 2.31.0 2.0.0 1.15.2 / 2.5 1.2.0 1.2.0
1.1.1 2.29.0 2.0.0 1.15.2 / 2.5 1.1.0 1.1.1
1.1.0 2.29.0 2.0.0 1.15.2 / 2.5 1.1.0 1.1.0
1.0.0 2.29.0 2.0.0 1,15 / 2,5 1.0.0 1.0.0
0.30.0 2.28.0 2.0.0 1,15 / 2,4 0.30.0 0.30.0
0.29.0 2.28.0 2.0.0 1,15 / 2,4 0.29.0 0.29.0
0.28.0 2.28.0 2.0.0 1,15 / 2,4 0.28.0 0.28.1
0.27.0 2.27.0 2.0.0 1,15 / 2,4 0.27.0 0.27.0
0.26.0 2.25.0 0.17.0 1,15 / 2,3 0.26.0 0.26.0
0.25.0 2.25.0 0.17.0 1,15 / 2,3 0.25.0 0.25.0
0.24.1 2.24.0 0.17.0 1,15 / 2,3 0.24.0 0.24.1
0.24.0 2.23.0 0.17.0 1,15 / 2,3 0.24.0 0.24.0
0.23.0 2.23.0 0.17.0 1,15 / 2,3 0.23.0 0.23.0
0.22.0 2.20.0 0.16.0 1,15 / 2,2 0.22.0 0.22.0
0.21.2 2.17.0 0.15.0 1,15 / 2,1 0.21.0 0.21.3
0.21.0 2.17.0 0.15.0 1,15 / 2,1 0.21.0 0.21.0
0.15.0 2.16.0 0.14.0 1,15 / 2,0 0.15.0 0.15.0
0.14.0 2.14.0 0.14.0 1.14 0.14.0 nie dotyczy
0.13.0 2.11.0 nie dotyczy 1.13 0.12.1 nie dotyczy
0.12.0 2.10.0 nie dotyczy 1.12 0.12.0 nie dotyczy
0.11.0 2.8.0 nie dotyczy 1.11 0.9.0 nie dotyczy
0.9.0 2.6.0 nie dotyczy 1.9 0.9.0 nie dotyczy
0.8.0 2.5.0 nie dotyczy 1.8 nie dotyczy nie dotyczy
0.6.0 2.4.0 nie dotyczy 1.6 nie dotyczy nie dotyczy
0.5.0 2.3.0 nie dotyczy 1,5 nie dotyczy nie dotyczy
0.4.0 2.2.0 nie dotyczy 1.4 nie dotyczy nie dotyczy
0.3.1 2.1.1 nie dotyczy 1.3 nie dotyczy nie dotyczy
0.3.0 2.1.1 nie dotyczy 1.3 nie dotyczy nie dotyczy
0.1.10 2.0.0 nie dotyczy 1,0 nie dotyczy nie dotyczy

pytania

Wszelkie pytania dotyczące pracy z tf.Transform do Stack Overflow prosimy kierować za pomocą tagu tensorflow-transform .