StringNGrams

StringNGram kelas akhir publik

Membuat ngram dari data string yang tidak rata.

Operasi ini menerima tensor kasar dengan 1 dimensi kasar yang hanya berisi string dan mengeluarkan tensor kasar dengan 1 dimensi kasar yang berisi ngram string tersebut, yang digabungkan di sepanjang sumbu terdalam.

Metode Publik

statis <T memperluas Angka> StringNGrams <T>
buat ( Lingkup lingkup, Operand <String> data, Operand <T> dataSplits, Pemisah string, Daftar<Panjang> ngramWidths, String leftPad, String rightPad, Long padWidth, Boolean melestarikanShortSequences)
Metode pabrik untuk membuat kelas yang membungkus operasi StringNGrams baru.
Keluaran <String>
ngram ()
Nilai tensor dari keluaran ngram tensor acak-acakan.
Keluaran <T>
ngramSplit ()
Tensor terbagi dari ngram keluaran tensor acak-acakan.

Metode Warisan

Metode Publik

StringNGrams statis publik <T> buat ( Lingkup cakupan , Operan <String> data, Operan <T> dataSplits, Pemisah string, Daftar<Panjang> ngramWidths, String leftPad, String rightPad, Long padWidth, Boolean melestarikanShortSequences)

Metode pabrik untuk membuat kelas yang membungkus operasi StringNGrams baru.

Parameter
cakupan ruang lingkup saat ini
data Nilai tensor dari tensor string yang tidak rata untuk dijadikan ngram. Harus berupa tensor string 1D.
pemisahan data Tensor terpisah dari tensor string yang tidak rata untuk menghasilkan ngram.
pemisah String yang akan ditambahkan di antara elemen token. Gunakan "" tanpa pemisah.
lebar ngram Ukuran ngram yang akan dibuat.
kiriPad String yang digunakan untuk mengisi sisi kiri urutan ngram. Hanya digunakan jika pad_width != 0.
pad kanan String yang digunakan untuk mengisi sisi kanan urutan ngram. Hanya digunakan jika pad_width != 0.
lebar pad Jumlah elemen padding yang akan ditambahkan ke setiap sisi setiap urutan. Perhatikan bahwa padding tidak akan pernah lebih besar dari 'ngram_widths'-1 berapa pun nilainya. Jika `pad_width=-1`, tambahkan elemen `max(ngram_widths)-1`.
Kembali
  • contoh baru dari StringNGrams

Output publik <String> ngram ()

Nilai tensor dari keluaran ngram tensor acak-acakan.

Keluaran publik <T> ngramsSplits ()

Tensor terbagi dari ngram keluaran tensor acak-acakan.