Text Kochbuch

Diese Seite enthält eine Reihe bekannter Anleitungen und Tools zur Lösung von Problemen in der Textdomäne mit TensorFlow Hub. Es ist ein Ausgangspunkt für alle, die typische ML-Probleme mit vorab geschulten ML-Komponenten lösen möchten, anstatt von vorne zu beginnen.

Einstufung

Wenn wir eine Klasse für ein bestimmtes Beispiel vorhersagen möchten, z. B. Stimmung , Toxizität , Artikelkategorie oder ein anderes Merkmal.

Textklassifizierungsgrafik

In den folgenden Tutorials wird dieselbe Aufgabe aus verschiedenen Perspektiven und mit unterschiedlichen Tools gelöst.

Keras

Textklassifizierung mit Keras - Beispiel für die Erstellung eines IMDB-Stimmungsklassifizierers mit Keras- und TensorFlow-Datasets.

Schätzer

Textklassifizierung - Beispiel für die Erstellung eines IMDB-Stimmungsklassifikators mit Estimator. Enthält mehrere Tipps zur Verbesserung und einen Abschnitt zum Modulvergleich.

BERT

Vorhersage der Filmkritik mit BERT auf TF Hub - zeigt, wie ein BERT-Modul zur Klassifizierung verwendet wird. Beinhaltet die Verwendung der bert Bibliothek für die Tokenisierung und Vorverarbeitung.

Kaggle

IMDB-Klassifizierung für Kaggle - zeigt, wie Sie einfach mit einem Kaggle-Wettbewerb von einem Colab aus interagieren können, einschließlich des Herunterladens der Daten und des Einreichens der Ergebnisse.

Schätzer Keras TF2 TF-Datensätze BERT Kaggle-APIs
Textklassifizierung getan
Textklassifizierung mit Keras getangetangetan
Vorhersage der Filmkritik mit BERT auf TF Hub getangetan
IMDB-Klassifizierung auf Kaggle getangetan

Bangla-Aufgabe mit FastText-Einbettungen

TensorFlow Hub bietet derzeit nicht in jeder Sprache ein Modul an. Das folgende Tutorial zeigt, wie Sie TensorFlow Hub für schnelles Experimentieren und modulare ML-Entwicklung nutzen können.

Bangla Article Classifier - zeigt, wie eine wiederverwendbare TensorFlow Hub-Texteinbettung erstellt und zum Trainieren eines Keras-Klassifikators für das BARD Bangla Article-Dataset verwendet wird .

Semantische Ähnlichkeit

Wenn wir herausfinden wollen, welche Sätze im Zero-Shot-Setup miteinander korrelieren (keine Trainingsbeispiele).

Semantische Ähnlichkeitsgrafik

Basic

Semantische Ähnlichkeit - zeigt, wie das Satzcodierermodul zum Berechnen der Satzähnlichkeit verwendet wird.

Mehrsprachig

Mehrsprachige semantische Ähnlichkeit - zeigt, wie mit einem der mehrsprachigen Satzcodierer die sprachliche Ähnlichkeit zwischen Sätzen berechnet wird.

Semantischer Abruf

Semantischer Abruf - zeigt, wie der Q / A-Satzcodierer verwendet wird, um eine Sammlung von Dokumenten zum Abrufen basierend auf semantischer Ähnlichkeit zu indizieren.

Satzteil-Eingabe

Semantische Ähnlichkeit mit Universal Encoder Lite - zeigt, wie Satzcodierermodule verwendet werden, die SentencePiece- IDs bei der Eingabe anstelle von Text akzeptieren.

Modulerstellung

Anstatt nur Module unter hub.tensorflow.google.cn zu verwenden , gibt es Möglichkeiten, eigene Module zu erstellen. Dies kann ein nützliches Werkzeug für eine bessere Modularität der ML-Codebasis und für die weitere gemeinsame Nutzung sein.

Verpacken vorhandener vorab trainierter Einbettungen

Exporteur von Texteinbettungsmodulen - ein Tool zum Umschließen einer vorhandenen vorab geschulten Einbettung in ein Modul. Zeigt, wie Textvorverarbeitungsoperationen in das Modul aufgenommen werden. Dies ermöglicht das Erstellen eines Satzeinbettungsmoduls aus Token-Einbettungen.

Exporteur v2 für das Texteinbettungsmodul - wie oben, jedoch kompatibel mit TensorFlow 2 und eifriger Ausführung.