Alat pemrosesan teks untuk TensorFlow
import tensorflow as tf import tensorflow_text as tf_text def preprocess(vocab_lookup_table, example_text): # Normalize text tf_text.normalize_utf8(example_text) # Tokenize into words word_tokenizer = tf_text.WhitespaceTokenizer() tokens = word_tokenizer.tokenize(example_text) # Tokenize into subwords subword_tokenizer = tf_text.WordpieceTokenizer( vocab_lookup_table, token_out_type=tf.int64) subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1) # Apply padding padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16) return padded_inputs
TensorFlow memberi Anda banyak koleksi operasi dan pustaka untuk membantu Anda bekerja dengan input dalam bentuk teks seperti string teks mentah atau dokumen. Pustaka ini dapat melakukan pra-pemrosesan secara teratur yang diperlukan oleh model berbasis teks, dan menyertakan fitur lain yang berguna untuk pemodelan urutan.
Anda dapat mengekstrak fitur teks sintaksis dan semantik yang kuat dari dalam grafik TensorFlow sebagai masukan ke jaringan saraf Anda.
Mengintegrasikan prapemrosesan dengan grafik TensorFlow memberikan manfaat berikut:
- Memfasilitasi toolkit besar untuk bekerja dengan teks
- Memungkinkan integrasi dengan rangkaian besar alat Tensorflow untuk mendukung proyek dari definisi masalah melalui pelatihan, evaluasi, dan peluncuran
- Mengurangi kerumitan pada waktu penyajian dan mencegah kemiringan penyajian pelatihan
Selain hal di atas, Anda tidak perlu khawatir tentang tokenisasi dalam pelatihan yang berbeda dari tokenisasi pada inferensi, atau mengelola skrip prapemrosesan.
