Livre de recettes de texte

Cette page répertorie un ensemble de guides et d'outils connus pour résoudre les problèmes dans le domaine du texte avec TensorFlow Hub. C'est un point de départ pour quiconque souhaite résoudre des problèmes de ML typiques à l'aide de composants de ML pré-entraînés plutôt que de partir de zéro.

Classification

Lorsque nous voulons prévoir une classe pour un exemple donné, par exemple le sentiment, la toxicité, catégorie d'article, ou toute autre caractéristique.

Graphique de classification de texte

Les didacticiels ci-dessous résolvent la même tâche sous différents angles et en utilisant différents outils.

Keras

Classification de texte avec Keras - par exemple pour la construction d' un classificateur de sentiment IMDB avec Keras et tensorflow datasets.

estimateur

Classification texte - par exemple pour la construction d' un classificateur de sentiment IMDB avec estimateur. Contient plusieurs conseils d'amélioration et une section de comparaison de modules.

BERT

Prédire Critique du film avec BERT sentiment TF Hub - montre comment utiliser un module de BERT pour la classification. Comprend l' utilisation de bert bibliothèque pour tokenization et pré - traitement.

Kaggle

Classement IMDB sur Kaggle - montre comment interagir facilement avec un concours Kaggle d'un Colab, y compris le téléchargement des données et la présentation des résultats.

estimateur Keras TF2 Ensembles de données TF BERT API Kaggle
Classement de texte Fini
Classification de texte avec Keras FiniFiniFini
Prédire le sentiment de critique de film avec BERT sur TF Hub FiniFini
Classement IMDB sur Kaggle FiniFini

Tâche Bangla avec des incorporations FastText

TensorFlow Hub ne propose actuellement pas de module dans toutes les langues. Le didacticiel suivant montre comment tirer parti de TensorFlow Hub pour une expérimentation rapide et un développement ML modulaire.

Bangla Article classificateur - montre comment créer un plongement texte réutilisable tensorflow Hub, et l' utiliser pour former un classificateur Keras pour BARD Bangla Article dataset .

Similitude sémantique

Lorsque nous voulons savoir quelles phrases sont en corrélation les unes avec les autres dans la configuration zéro tir (pas d'exemples d'entraînement).

Graphique de similarité sémantique

De base

Similarité sémantique - montre comment utiliser le module codeur de phrase pour calculer la similarité de la phrase.

multilingue

Similarité sémantique translinguistique - montre comment utiliser l' un des codeurs de phrases translinguistique pour calculer la similarité des phrases dans plusieurs langues.

Récupération sémantique

Recherche sémantique - montre comment utiliser Q / Un codeur de phrase pour indexer une collection de documents pour la récupération sur la base de la similarité sémantique.

Saisie SentencePiece

Similarité sémantique avec le lite codeur universel - montre comment utiliser les modules de codeur de phrase qui acceptent SentencePiece ids sur l' entrée au lieu du texte.

Création de modules

Au lieu d'utiliser des modules seulement sur hub.tensorflow.google.cn , il existe des moyens de créer vos propres modules. Cela peut être un outil utile pour une meilleure modularité de la base de code ML et pour un partage ultérieur.

Envelopper les inclusions pré-entraînées existantes

Module intégration texte exportateur - un outil pour envelopper une intégration pré-formation existant dans un module. Montre comment inclure des opérations de pré-traitement de texte dans le module. Cela permet de créer un module d'incorporation de phrases à partir d'incorporations de jetons.

Module enrobage texte exportateur v2 - comme ci - dessus, mais compatible avec tensorflow 2 et exécution avide.