Alat pemrosesan teks untuk TensorFlow

import tensorflow as tf
import tensorflow_text as tf_text

def preprocess(vocab_lookup_table, example_text):

  # Normalize text
  tf_text.normalize_utf8(example_text)

  # Tokenize into words
  word_tokenizer = tf_text.WhitespaceTokenizer()
  tokens = word_tokenizer.tokenize(example_text)

  # Tokenize into subwords
  subword_tokenizer = tf_text.WordpieceTokenizer(
       vocab_lookup_table, token_out_type=tf.int64)
  subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1)

  # Apply padding
  padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16)
  return padded_inputs

TensorFlow memberi Anda banyak koleksi operasi dan pustaka untuk membantu Anda bekerja dengan input dalam bentuk teks seperti string teks mentah atau dokumen. Pustaka ini dapat melakukan pra-pemrosesan secara teratur yang diperlukan oleh model berbasis teks, dan menyertakan fitur lain yang berguna untuk pemodelan urutan.

Anda dapat mengekstrak fitur teks sintaksis dan semantik yang kuat dari dalam grafik TensorFlow sebagai masukan ke jaringan saraf Anda.

Mengintegrasikan prapemrosesan dengan grafik TensorFlow memberikan manfaat berikut:

  • Memfasilitasi toolkit besar untuk bekerja dengan teks
  • Memungkinkan integrasi dengan rangkaian besar alat Tensorflow untuk mendukung proyek dari definisi masalah melalui pelatihan, evaluasi, dan peluncuran
  • Mengurangi kerumitan pada waktu penyajian dan mencegah kemiringan penyajian pelatihan

Selain hal di atas, Anda tidak perlu khawatir tentang tokenisasi dalam pelatihan yang berbeda dari tokenisasi pada inferensi, atau mengelola skrip prapemrosesan.

Arsitektur Model
Pelajari cara melakukan prapemrosesan BERT end-to-end pada teks.
Pelajari cara menghasilkan kosakata subkata dari teks.
Pelajari cara mengklasifikasikan teks dengan model BERT.
Mengklasifikasikan teks menggunakan Recurrent Neural Networks.
Gunakan model Transformer untuk menerjemahkan teks.
Pelajari cara menerjemahkan teks dengan model urutan-ke-urutan.