Le guide de traitement de texte TensorFlow documente les bibliothèques et les flux de travail pour le traitement du langage naturel (NLP) et présente des concepts importants pour travailler avec du texte.
KerasPNL
KerasNLP est une bibliothèque de traitement du langage naturel (NLP) de haut niveau qui inclut tous les derniers modèles basés sur Transformer ainsi que des utilitaires de tokenisation de niveau inférieur. C'est la solution recommandée pour la plupart des cas d'utilisation du NLP.
- Premiers pas avec KerasNLP : découvrez KerasNLP en effectuant une analyse des sentiments à des niveaux de complexité progressifs, de l'utilisation d'un modèle pré-formé à la création de votre propre transformateur à partir de zéro.
tf.strings
Le module tf.strings
fournit des opérations pour travailler avec des Tensors de chaîne.
- Chaînes Unicode : représentez les chaînes Unicode dans TensorFlow et manipulez-les à l'aide des équivalents Unicode des opérations de chaîne standard.
Texte TensorFlow
Si vous avez besoin d'accéder à des outils de traitement de texte de niveau inférieur, vous pouvez utiliser TensorFlow Text. TensorFlow Text fournit une collection d'opérations et de bibliothèques pour vous aider à travailler avec des entrées sous forme de texte, telles que des chaînes de texte brutes ou des documents.
- Introduction à TensorFlow Text : découvrez comment installer TensorFlow Text ou le créer à partir des sources.
- Conversion des opérateurs TensorFlow Text en TensorFlow Lite : convertissez un modèle TensorFlow Text en TensorFlow Lite pour un déploiement sur des appareils mobiles, intégrés et IoT.
Pré-traitement
- Prétraitement BERT avec TF Text : utilisez les opérations de prétraitement TensorFlow Text pour transformer les données textuelles en entrées pour BERT.
- Création de jetons avec TF Text : comprenez les options de création de jetons fournies par TensorFlow Text. Découvrez quand vous voudrez peut-être utiliser une option plutôt qu'une autre et comment ces tokenizers sont appelés depuis votre modèle.
- Tokenizers de sous-mots : générez un vocabulaire de sous-mots à partir d'un ensemble de données et utilisez-le pour créer un
text.BertTokenizer
à partir du vocabulaire.
Modèles TensorFlow – PNL
La bibliothèque TensorFlow Models - NLP fournit des primitives Keras qui peuvent être assemblées dans des modèles basés sur Transformer et des classes d'échafaudage qui permettent une expérimentation facile avec de nouvelles architectures.
- Présentation de la bibliothèque NLP TensorFlow Models : créez des modèles basés sur Transformer pour les tâches NLP courantes, y compris la pré-formation, l'étiquetage des étendues et la classification à l'aide de blocs de construction de la bibliothèque de modélisation NLP .
- Personnalisation d'un encodeur de transformateur : personnalisez
tfm.nlp.networks.EncoderScaffold
, un échafaudage de réseau d'encodeur bidirectionnel basé sur un transformateur, pour utiliser de nouvelles architectures de réseau.