Buku Masak Teks

Halaman ini mencantumkan serangkaian panduan dan alat yang diketahui untuk memecahkan masalah dalam domain teks dengan TensorFlow Hub. Ini adalah tempat awal bagi siapa saja yang ingin memecahkan masalah ML biasa menggunakan komponen ML yang sudah terlatih daripada memulai dari awal.

Klasifikasi

Ketika kita ingin memprediksi kelas untuk contoh yang diberikan, misalnya sentimen, toksisitas, kategori artikel, atau karakteristik lainnya.

Grafik Klasifikasi Teks

Tutorial di bawah ini memecahkan tugas yang sama dari perspektif yang berbeda dan menggunakan alat yang berbeda.

Keras

Klasifikasi teks dengan Keras - contoh untuk membangun sentimen classifier IMDB dengan Keras dan TensorFlow Datasets.

Penaksir

Klasifikasi teks - contoh untuk membangun sentimen classifier IMDB dengan Pengukur. Berisi beberapa tips untuk perbaikan dan bagian perbandingan modul.

BERT

Memprediksi Movie Review Sentimen dengan Bert pada TF Hub - menunjukkan bagaimana menggunakan modul Bert untuk klasifikasi. Mencakup penggunaan bert perpustakaan untuk tokenization dan preprocessing.

Kaggle

IMDB klasifikasi pada Kaggle - menunjukkan bagaimana dengan mudah berinteraksi dengan kompetisi Kaggle dari CoLab, termasuk men-download data dan mengirimkan hasilnya.

Penaksir Keras TF2 Kumpulan Data TF BERT API Kaggle
Klasifikasi teks selesai
Klasifikasi teks dengan Keras selesaiselesaiselesai
Memprediksi Sentimen Review Film dengan BERT di TF Hub selesaiselesai
Klasifikasi IMDB di Kaggle selesaiselesai

Tugas Bangla dengan penyematan FastText

TensorFlow Hub saat ini tidak menawarkan modul dalam setiap bahasa. Tutorial berikut menunjukkan cara memanfaatkan TensorFlow Hub untuk eksperimen cepat dan pengembangan ML modular.

Bangla Pasal Classifier - menunjukkan cara membuat embedding teks TensorFlow Hub dapat digunakan kembali, dan menggunakannya untuk melatih classifier Keras untuk Bard Bangla Pasal dataset .

Kesamaan semantik

Ketika kita ingin mengetahui kalimat mana yang saling berkorelasi dalam pengaturan zero-shot (tidak ada contoh pelatihan).

Grafik Kesamaan Semantik

Dasar

Semantik kesamaan - menunjukkan bagaimana menggunakan modul kalimat encoder untuk menghitung kalimat kesamaan.

lintas bahasa

Cross-lingual semantik kesamaan - menunjukkan bagaimana menggunakan salah satu encoders kalimat lintas-bahasa untuk menghitung kalimat kesamaan di seluruh bahasa.

Pengambilan semantik

Pengambilan semantik - menunjukkan bagaimana menggunakan Q / A kalimat encoder indeks koleksi dokumen untuk pengambilan berdasarkan kesamaan semantik.

Masukan Potongan Kalimat

Kesamaan semantik dengan lite encoder yang universal - menunjukkan bagaimana menggunakan modul kalimat encoder yang menerima SentencePiece id input bukan teks.

Pembuatan modul

Alih-alih hanya menggunakan modul pada hub.tensorflow.google.cn , ada cara untuk membuat modul sendiri. Ini bisa menjadi alat yang berguna untuk modularitas basis kode ML yang lebih baik dan untuk berbagi lebih lanjut.

Membungkus embeddings pra-terlatih yang ada

Teks embedding modul eksportir - alat untuk membungkus yang ada pra-dilatih embedding ke dalam modul. Menunjukkan cara memasukkan operasi pra-pemrosesan teks ke dalam modul. Ini memungkinkan untuk membuat modul penyematan kalimat dari penyematan token.

Teks embedding modul eksportir v2 - sama seperti di atas, namun kompatibel dengan TensorFlow 2 dan eksekusi bersemangat.