GenerateVocabRemapping

kelas akhir publik GenerateVocabRemapping

Diberikan jalur ke file kosakata baru dan lama, mengembalikan Tensor yang dipetakan ulang

panjang `num_new_vocab`, dengan `remapping[i]` berisi nomor baris dalam kosakata lama yang sesuai dengan baris `i` dalam kosakata baru (mulai dari baris `new_vocab_offset` dan hingga `num_new_vocab` entitas), atau `- 1` jika entri `i` pada kosakata baru tidak ada pada kosakata lama. Kosakata lama dibatasi pada entri `old_vocab_size` pertama jika `old_vocab_size` bukan nilai default -1.

`num_vocab_offset` memungkinkan penggunaan dalam kasus variabel yang dipartisi, dan umumnya harus diatur melalui pemeriksaan informasi partisi. Format file harus berupa file teks, dengan setiap baris berisi satu entitas dalam kosakata.

Misalnya, dengan `new_vocab_file` file teks yang berisi masing-masing elemen berikut dalam satu baris: `[f0, f1, f2, f3]`, old_vocab_file = [f1, f0, f3], `num_new_vocab = 3, new_vocab_offset = 1`, pemetaan ulang yang dikembalikan akan menjadi `[0, -1, 2]`.

Operasi ini juga mengembalikan hitungan berapa banyak entri dalam kosakata baru yang ada dalam kosakata lama, yang digunakan untuk menghitung jumlah nilai yang akan diinisialisasi dalam pemetaan ulang matriks bobot

Fungsionalitas ini dapat digunakan untuk memetakan ulang kosakata baris (biasanya fitur) dan kosakata kolom (biasanya kelas) dari pos pemeriksaan TensorFlow. Perhatikan bahwa logika partisi bergantung pada kosakata yang berdekatan sesuai dengan variabel yang dipartisi div. Selain itu, pemetaan ulang yang mendasarinya menggunakan IndexTable (sebagai lawan dari CuckooTable yang tidak eksak), sehingga kode klien harus menggunakan index_table_from_file() yang sesuai seperti yang dilakukan kerangka FeatureColumn (sebagai lawan dari tf.feature_to_id(), yang menggunakan CuckooTable).

Kelas Bersarang

kelas HasilkanVocabRemapping.Options Atribut opsional untuk GenerateVocabRemapping

Konstanta

Rangkaian OP_NAME Nama operasi ini dikenal dengan mesin inti TensorFlow

Metode Publik

statis GenerateVocabRemapping
buat ( Lingkup cakupan, Operan < TString > newVocabFile, Operan < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Opsi... pilihan)
Metode pabrik untuk membuat kelas yang membungkus operasi GenerateVocabRemapping baru.
Keluaran < TInt32 >
jumlah Sekarang ()
Jumlah entri kosakata baru yang ditemukan di kosakata lama.
statis GenerateVocabRemapping.Options
oldVocabSize (Ukuran Vocab lama yang panjang)
Keluaran < TInt64 >
memetakan ulang ()
Tensor dengan panjang num_new_vocab dengan elemen pada indeks i sama dengan ID lama yang dipetakan ke ID baru i.

Metode Warisan

Konstanta

String akhir statis publik OP_NAME

Nama operasi ini dikenal dengan mesin inti TensorFlow

Nilai Konstan: "GenerateVocabRemapping"

Metode Publik

public static GenerateVocabRemapping buat ( Lingkup cakupan , Operan < TString > newVocabFile, Operan < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Opsi... opsi)

Metode pabrik untuk membuat kelas yang membungkus operasi GenerateVocabRemapping baru.

Parameter
cakupan ruang lingkup saat ini
FileVocab baru Jalur ke file vocab baru.
FileVocab lama Jalur ke file vocab lama.
vocaboffset baru Berapa banyak entri ke dalam file vocab baru untuk mulai membaca.
numNewVocab Jumlah entri dalam file vocab baru yang akan dipetakan ulang.
pilihan membawa nilai atribut opsional
Kembali
  • contoh baru dari GenerateVocabRemapping

Keluaran publik < TInt32 > numPresent ()

Jumlah entri kosakata baru yang ditemukan di kosakata lama.

public static GenerateVocabRemapping.Options oldVocabSize (Long oldVocabSize)

Parameter
ukuranVocab lama Jumlah entri dalam file vocab lama yang perlu dipertimbangkan. Jika -1, gunakan seluruh kosakata lama.

Output publik < TInt64 > memetakan ulang ()

Tensor dengan panjang num_new_vocab dengan elemen pada indeks i sama dengan ID lama yang dipetakan ke ID baru i. Elemen ini adalah -1 untuk setiap ID baru yang tidak ditemukan dalam kosakata lama.