Libro di ricette di testo

Questa pagina elenca una serie di guide e strumenti noti per la risoluzione dei problemi nel dominio del testo con TensorFlow Hub. È un punto di partenza per chiunque desideri risolvere i tipici problemi di ML utilizzando componenti ML pre-addestrati anziché iniziare da zero.

Classificazione

Quando vogliamo prevedere una classe per un dato esempio, ad esempio sentiment , tossicità , categoria di articoli o qualsiasi altra caratteristica.

Grafico di classificazione del testo

I tutorial seguenti risolvono lo stesso compito da diverse prospettive e utilizzando strumenti diversi.

Keras

Classificazione del testo con Keras : esempio per creare un classificatore di sentiment IMDB con Keras e TensorFlow Dataset.

Estimatore

Classificazione del testo : esempio per creare un classificatore di sentiment IMDB con Estimator. Contiene numerosi suggerimenti per il miglioramento e una sezione di confronto dei moduli.

BERT

Previsione del sentiment delle recensioni di film con BERT su TF Hub : mostra come utilizzare un modulo BERT per la classificazione. Include l'uso della libreria bert per la tokenizzazione e la preelaborazione.

Kaggle

Classificazione IMDB su Kaggle : mostra come interagire facilmente con una competizione Kaggle da un Colab, incluso il download dei dati e l'invio dei risultati.

Attività Bangla con incorporamenti FastText

TensorFlow Hub attualmente non offre un modulo in ogni lingua. Il tutorial seguente mostra come sfruttare TensorFlow Hub per una sperimentazione rapida e uno sviluppo ML modulare.

Bangla Article Classifier : mostra come creare un incorporamento di testo TensorFlow Hub riutilizzabile e utilizzarlo per addestrare un classificatore Keras per il set di dati BARD Bangla Article .

Somiglianza semantica

Quando vogliamo scoprire quali frasi sono correlate tra loro nella configurazione zero-shot (nessun esempio di formazione).

Grafica di somiglianza semantica

Di base

Somiglianza semantica : mostra come utilizzare il modulo di codifica delle frasi per calcolare la somiglianza delle frasi.

Multilingue

Somiglianza semantica interlinguistica : mostra come utilizzare uno dei codificatori di frasi interlinguistiche per calcolare la somiglianza delle frasi tra le lingue.

Recupero semantico

Recupero semantico : mostra come utilizzare il codificatore di frasi di domande/risposte per indicizzare una raccolta di documenti per il recupero in base alla somiglianza semantica.

Ingresso del pezzo di frase

Somiglianza semantica con Universal Encoder Lite : mostra come utilizzare i moduli di codifica delle frasi che accettano ID SentencePiece in input anziché nel testo.

Creazione del modulo

Invece di utilizzare solo i moduli su tfhub.dev , ci sono modi per creare i propri moduli. Questo può essere uno strumento utile per una migliore modularità della base di codice ML e per un'ulteriore condivisione.

Wrapping degli incorporamenti pre-addestrati esistenti

Esportatore di moduli di incorporamento del testo : uno strumento per racchiudere un incorporamento pre-addestrato esistente in un modulo. Mostra come includere operazioni di pre-elaborazione del testo nel modulo. Ciò consente di creare un modulo di incorporamento di frasi dagli incorporamenti di token.

Esportatore di moduli di incorporamento testo v2 : come sopra, ma compatibile con TensorFlow 2 ed esecuzione entusiasta.