Introduction au texte TensorFlow

TensorFlow Text fournit une collection de classes et d'opérations liées au texte prêtes à être utilisées avec TensorFlow 2.0. La bibliothèque peut effectuer le prétraitement régulièrement requis par les modèles basés sur du texte et comprend d'autres fonctionnalités utiles pour la modélisation de séquences non fournies par le noyau TensorFlow.

L'avantage d'utiliser ces opérations dans votre prétraitement de texte est qu'elles sont effectuées dans le graphique TensorFlow. Vous n'avez pas à vous soucier de la différence entre la tokenisation lors de la formation et la tokenisation lors de l'inférence ou la gestion des scripts de prétraitement.

Installer le texte TensorFlow

Installer en utilisant pip

Lors de l'installation de TF Text avec pip install, notez la version de TensorFlow que vous utilisez, car vous devez spécifier la version correspondante de TF Text.

pip install -U tensorflow-text==<version>

Construire à partir des sources

TensorFlow Text doit être créé dans le même environnement que TensorFlow. Ainsi, si vous créez manuellement TF Text, il est fortement recommandé de créer également TensorFlow.

Si vous construisez sur MacOS, vous devez avoir installé coreutils. C'est probablement plus simple à faire avec Homebrew. Tout d'abord, créez TensorFlow à partir de la source .

Clonez le dépôt TF Text.

git clone  https://github.com/tensorflow/text.git

Enfin, exécutez le script de build pour créer un package pip.

./oss_scripts/run_build.sh