Peringatan: API ini tidak digunakan lagi dan akan dihapus di versi TensorFlow mendatang setelah penggantinya stabil.

UnicodeDecode

public class akhir UnicodeDecode

Mendekodekan setiap string dalam `input` ke dalam urutan titik kode Unicode.

Titik kode karakter untuk semua string dikembalikan menggunakan vektor tunggal `nilai_karakter`, dengan string diperluas ke karakter dalam urutan baris-utama.

Tensor `row_splits` menunjukkan di mana titik kode untuk setiap string input dimulai dan diakhiri dalam tensor `char_values`. Secara khusus, nilai untuk string `i` (dalam urutan baris-utama) disimpan dalam irisan `[row_splits[i]:row_splits[i+1]]`. Dengan demikian:

  • `char_values[row_splits[i]+j]` adalah titik kode Unicode untuk karakter `j`th dalam string `i` (dalam urutan baris-utama).
  • `row_splits[i+1] - row_splits[i]` adalah jumlah karakter dalam string `i` (dalam urutan baris-utama).

Kelas Bersarang

kelas UnicodeDecode.Options Atribut opsional untuk UnicodeDecode

Metode Publik

Output <Integer>
charValues ()
Tensor int32 1D yang berisi codepoint yang didekodekan.
statis <T meluas Nomor> UnicodeDecode <T>
membuat ( Lingkup lingkup, Operan <String> input, String inputEncoding, Kelas <T> Tsplits, Options ... pilihan)
Metode pabrik untuk membuat kelas yang membungkus operasi UnicodeDecode baru.
statis UnicodeDecode <Panjang>
membuat ( Lingkup lingkup, Operan <String> input, String inputEncoding, Options ... pilihan)
Metode pabrik untuk membuat kelas yang membungkus operasi UnicodeDecode baru menggunakan tipe keluaran default.
statis UnicodeDecode.Options
kesalahan (error String)
statis UnicodeDecode.Options
replaceControlCharacters (Boolean replaceControlCharacters)
statis UnicodeDecode.Options
replacementChar (Long replacementChar)
Output <T>
rowSplits ()
Tensor int32 1D yang berisi pemisahan baris.

Metode yang Diwarisi

Metode Publik

publik Keluaran <Integer> charValues ()

Tensor int32 1D yang berisi codepoint yang didekodekan.

public static UnicodeDecode <T> membuat ( Lingkup lingkup, Operan <String> input, String inputEncoding, Kelas <T> Tsplits, Options ... pilihan)

Metode pabrik untuk membuat kelas yang membungkus operasi UnicodeDecode baru.

Parameter
cakupan lingkup saat ini
memasukkan Teks yang akan diterjemahkan. Bisa berbentuk apa saja. Perhatikan bahwa output diratakan ke vektor nilai char.
masukanEncoding Encoding teks dari string input. Ini adalah salah satu pengkodean yang didukung oleh konverter algoritmik ICU ucnv. Contoh: `"UTF-16", "ASCII AS", "UTF-8"`.
pilihan membawa nilai atribut opsional
Kembali
  • contoh baru UnicodeDecode

public static UnicodeDecode <Panjang> membuat ( Lingkup lingkup, Operan <String> input, String inputEncoding, Options ... pilihan)

Metode pabrik untuk membuat kelas yang membungkus operasi UnicodeDecode baru menggunakan tipe keluaran default.

Parameter
cakupan lingkup saat ini
memasukkan Teks yang akan diterjemahkan. Bisa berbentuk apa saja. Perhatikan bahwa output diratakan ke vektor nilai char.
masukanEncoding Encoding teks dari string input. Ini adalah salah satu pengkodean yang didukung oleh konverter algoritmik ICU ucnv. Contoh: `"UTF-16", "ASCII AS", "UTF-8"`.
pilihan membawa nilai atribut opsional
Kembali
  • contoh baru UnicodeDecode

public static UnicodeDecode.Options kesalahan (error String)

Parameter
kesalahan Kebijakan penanganan kesalahan ketika ada pemformatan yang tidak valid ditemukan di input. Nilai 'strict' akan menyebabkan operasi menghasilkan kesalahan InvalidArgument pada format input yang tidak valid. Nilai 'ganti' (default) akan menyebabkan operasi mengganti pemformatan yang tidak valid dalam input dengan titik kode `replacement_char`. Nilai 'abaikan' akan menyebabkan operasi melewatkan pemformatan yang tidak valid dalam input dan tidak menghasilkan karakter output yang sesuai.

public static UnicodeDecode.Options replaceControlCharacters (Boolean replaceControlCharacters)

Parameter
gantiControlCharacters Apakah akan mengganti karakter kontrol C0 (00-1F) dengan `replacement_char`. Standarnya salah.

public static UnicodeDecode.Options replacementChar (Long replacementChar)

Parameter
penggantiChar Titik kode karakter pengganti yang akan digunakan sebagai pengganti pemformatan yang tidak valid dalam input saat `errors='replace'`. Setiap codepoint unicode yang valid dapat digunakan. Nilai default adalah karakter pengganti unicode default adalah 0xFFFD atau U+65533.)

publik Keluaran <T> rowSplits ()

Tensor int32 1D yang berisi pemisahan baris.