Strumenti di elaborazione del testo per TensorFlow

import tensorflow as tf
import tensorflow_text as tf_text

def preprocess(vocab_lookup_table, example_text):

  # Normalize text
  tf_text.normalize_utf8(example_text)

  # Tokenize into words
  word_tokenizer = tf_text.WhitespaceTokenizer()
  tokens = word_tokenizer.tokenize(example_text)

  # Tokenize into subwords
  subword_tokenizer = tf_text.WordpieceTokenizer(
       vocab_lookup_table, token_out_type=tf.int64)
  subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1)

  # Apply padding
  padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16)
  return padded_inputs

TensorFlow ti offre una ricca raccolta di operazioni e librerie per aiutarti a lavorare con l'input in forma di testo come stringhe di testo grezzo o documenti. Queste librerie possono eseguire la preelaborazione regolarmente richiesta dai modelli basati su testo e includono altre funzionalità utili per la modellazione di sequenze.

Puoi estrarre potenti funzionalità di testo sintattiche e semantiche dall'interno del grafico TensorFlow come input per la tua rete neurale.

L'integrazione della preelaborazione con il grafico TensorFlow offre i seguenti vantaggi:

  • Facilita un grande toolkit per lavorare con il testo
  • Consente l'integrazione con un'ampia suite di strumenti Tensorflow per supportare i progetti dalla definizione dei problemi attraverso la formazione, la valutazione e il lancio
  • Riduce la complessità al momento del servizio e previene lo sbilanciamento del servizio di formazione

Oltre a quanto sopra, non devi preoccuparti che la tokenizzazione nell'addestramento sia diversa dalla tokenizzazione all'inferenza o dalla gestione degli script di preelaborazione.

Architetture modello
Scopri come eseguire la preelaborazione BERT end-to-end sul testo.
Scopri come generare vocabolari di sottoparole dal testo.
Scopri come classificare il testo con il modello BERT.
Classificare il testo utilizzando le reti neurali ricorrenti.
Usa i modelli Transformer per tradurre il testo.
Scopri come tradurre il testo con i modelli da sequenza a sequenza.