Livre de recettes de texte

Cette page répertorie un ensemble de guides et d'outils connus résolvant les problèmes dans le domaine du texte avec TensorFlow Hub. Il s'agit d'un point de départ pour quiconque souhaite résoudre des problèmes de ML typiques à l'aide de composants de ML pré-entraînés plutôt que de repartir de zéro.

Classification

Lorsque l'on souhaite prédire une classe pour un exemple donné, par exemple sentiment , toxicité , catégorie d'article ou toute autre caractéristique.

Graphique de classification du texte

Les didacticiels ci-dessous résolvent la même tâche sous différents angles et en utilisant différents outils.

Kéras

Classification de texte avec Keras - exemple de création d'un classificateur de sentiments IMDB avec des ensembles de données Keras et TensorFlow.

Estimateur

Classification de texte - exemple de création d'un classificateur de sentiments IMDB avec Estimator. Contient plusieurs conseils d’amélioration et une section de comparaison de modules.

BERTE

Prédire le sentiment des critiques de films avec BERT sur TF Hub - montre comment utiliser un module BERT pour la classification. Comprend l'utilisation de la bibliothèque bert pour la tokenisation et le prétraitement.

Kaggle

Classification IMDB sur Kaggle - montre comment interagir facilement avec une compétition Kaggle à partir d'un Colab, y compris le téléchargement des données et la soumission des résultats.

Estimateur Kéras TF2 Ensembles de données TF BERTE API Kaggle
Classement du texte fait
Classification de texte avec Keras faitfaitfait
Prédire le sentiment des critiques de films avec BERT sur TF Hub faitfait
Classement IMDB sur Kaggle faitfait

Tâche Bangla avec intégrations FastText

TensorFlow Hub ne propose actuellement pas de module dans chaque langue. Le didacticiel suivant montre comment exploiter TensorFlow Hub pour une expérimentation rapide et un développement de ML modulaire.

Bangla Article Classifier - montre comment créer une intégration de texte TensorFlow Hub réutilisable et l'utiliser pour former un classificateur Keras pour l'ensemble de données BARD Bangla Article .

Similitude sémantique

Lorsque nous voulons savoir quelles phrases sont en corrélation les unes avec les autres dans une configuration zéro-shot (pas d'exemples de formation).

Graphique de similarité sémantique

Basique

Similitude sémantique - montre comment utiliser le module d'encodeur de phrases pour calculer la similarité des phrases.

Multilingue

Similitude sémantique multilingue - montre comment utiliser l'un des encodeurs de phrases multilingues pour calculer la similarité des phrases entre les langues.

Récupération sémantique

Récupération sémantique - montre comment utiliser l'encodeur de phrases Q/A pour indexer une collection de documents en vue d'une récupération basée sur la similarité sémantique.

Entrée de morceau de phrase

Similitude sémantique avec Universal Encoder Lite - montre comment utiliser des modules d'encodeur de phrases qui acceptent les identifiants SentencePièce en entrée au lieu du texte.

Création de modules

Au lieu d'utiliser uniquement des modules sur tfhub.dev , il existe des moyens de créer vos propres modules. Cela peut être un outil utile pour une meilleure modularité de la base de code ML et pour un partage ultérieur.

Encapsulation des intégrations pré-entraînées existantes

Exportateur de module d'intégration de texte - un outil pour intégrer une intégration pré-entraînée existante dans un module. Montre comment inclure des opérations de prétraitement de texte dans le module. Cela permet de créer un module d'intégration de phrases à partir d'intégrations de jetons.

Exportateur de module d'intégration de texte v2 - identique à ci-dessus, mais compatible avec TensorFlow 2 et exécution rapide.