Diese Seite enthält eine Reihe bekannter Anleitungen und Tools zur Lösung von Problemen in der Textdomäne mit TensorFlow Hub. Es ist ein Ausgangspunkt für alle, die typische ML-Probleme mit vorab geschulten ML-Komponenten lösen möchten, anstatt von vorne zu beginnen.
Einstufung
Wenn wir eine Klasse für ein bestimmtes Beispiel vorhersagen möchten, z. B. Stimmung , Toxizität , Artikelkategorie oder ein anderes Merkmal.
In den folgenden Tutorials wird dieselbe Aufgabe aus verschiedenen Perspektiven und mit unterschiedlichen Tools gelöst.
Keras
Textklassifizierung mit Keras - Beispiel für die Erstellung eines IMDB-Stimmungsklassifizierers mit Keras- und TensorFlow-Datasets.
Schätzer
Textklassifizierung - Beispiel für die Erstellung eines IMDB-Stimmungsklassifikators mit Estimator. Enthält mehrere Tipps zur Verbesserung und einen Abschnitt zum Modulvergleich.
BERT
Vorhersage der Filmkritik mit BERT auf TF Hub - zeigt, wie ein BERT-Modul zur Klassifizierung verwendet wird. Beinhaltet die Verwendung der bert
Bibliothek für die Tokenisierung und Vorverarbeitung.
Kaggle
IMDB-Klassifizierung für Kaggle - zeigt, wie Sie einfach mit einem Kaggle-Wettbewerb von einem Colab aus interagieren können, einschließlich des Herunterladens der Daten und des Einreichens der Ergebnisse.
Schätzer | Keras | TF2 | TF-Datensätze | BERT | Kaggle-APIs | |
---|---|---|---|---|---|---|
Textklassifizierung | ![]() | |||||
Textklassifizierung mit Keras | ![]() | ![]() | ![]() | |||
Vorhersage der Filmkritik mit BERT auf TF Hub | ![]() | ![]() | ||||
IMDB-Klassifizierung auf Kaggle | ![]() | ![]() |
Bangla-Aufgabe mit FastText-Einbettungen
TensorFlow Hub bietet derzeit nicht in jeder Sprache ein Modul an. Das folgende Tutorial zeigt, wie Sie TensorFlow Hub für schnelles Experimentieren und modulare ML-Entwicklung nutzen können.
Bangla Article Classifier - zeigt, wie eine wiederverwendbare TensorFlow Hub-Texteinbettung erstellt und zum Trainieren eines Keras-Klassifikators für das BARD Bangla Article-Dataset verwendet wird .
Semantische Ähnlichkeit
Wenn wir herausfinden wollen, welche Sätze im Zero-Shot-Setup miteinander korrelieren (keine Trainingsbeispiele).
Basic
Semantische Ähnlichkeit - zeigt, wie das Satzcodierermodul zum Berechnen der Satzähnlichkeit verwendet wird.
Mehrsprachig
Mehrsprachige semantische Ähnlichkeit - zeigt, wie mit einem der mehrsprachigen Satzcodierer die sprachliche Ähnlichkeit zwischen Sätzen berechnet wird.
Semantischer Abruf
Semantischer Abruf - zeigt, wie der Q / A-Satzcodierer verwendet wird, um eine Sammlung von Dokumenten zum Abrufen basierend auf semantischer Ähnlichkeit zu indizieren.
Satzteil-Eingabe
Semantische Ähnlichkeit mit Universal Encoder Lite - zeigt, wie Satzcodierermodule verwendet werden, die SentencePiece- IDs bei der Eingabe anstelle von Text akzeptieren.
Modulerstellung
Anstatt nur Module unter hub.tensorflow.google.cn zu verwenden , gibt es Möglichkeiten, eigene Module zu erstellen. Dies kann ein nützliches Werkzeug für eine bessere Modularität der ML-Codebasis und für die weitere gemeinsame Nutzung sein.
Verpacken vorhandener vorab trainierter Einbettungen
Exporteur von Texteinbettungsmodulen - ein Tool zum Umschließen einer vorhandenen vorab geschulten Einbettung in ein Modul. Zeigt, wie Textvorverarbeitungsoperationen in das Modul aufgenommen werden. Dies ermöglicht das Erstellen eines Satzeinbettungsmoduls aus Token-Einbettungen.
Exporteur v2 für das Texteinbettungsmodul - wie oben, jedoch kompatibel mit TensorFlow 2 und eifriger Ausführung.