UnicodeDecode

UnicodeDecode kelas akhir publik

Mendekode setiap string di `input` menjadi rangkaian titik kode Unicode.

Titik kode karakter untuk semua string dikembalikan menggunakan satu vektor `char_values`, dengan string diperluas ke karakter dalam urutan baris-utama.

Tensor `row_splits` menunjukkan titik kode untuk setiap string masukan dimulai dan diakhiri dalam tensor `char_values`. Secara khusus, nilai untuk string ke-i` (dalam urutan baris-mayor) disimpan dalam irisan `[row_splits[i]:row_splits[i+1]]`. Dengan demikian:

  • `char_values[row_splits[i]+j]` adalah titik kode Unicode untuk karakter ke-`j` dalam string ke-i` (dalam urutan baris-utama).
  • `row_splits[i+1] - row_splits[i]` adalah jumlah karakter dalam string ke-i` (dalam urutan baris-mayor).

Kelas Bersarang

kelas UnicodeDecode.Opsi Atribut opsional untuk UnicodeDecode

Metode Publik

Keluaran <Bilangan Bulat>
Nilai char ()
Tensor int32 1D yang berisi titik kode yang didekodekan.
statis <T memperluas Nomor> UnicodeDecode <T>
buat ( Lingkup lingkup, masukan Operan <String>, Input stringEncoding, Kelas<T> Tsplits, Opsi... opsi)
Metode pabrik untuk membuat kelas yang membungkus operasi UnicodeDecode baru.
UnicodeDecode statis <Panjang>
buat ( Lingkup lingkup, masukan Operan <String>, masukan StringEncoding, Opsi... opsi)
Metode pabrik untuk membuat kelas yang membungkus operasi UnicodeDecode baru menggunakan tipe keluaran default.
UnicodeDecode.Options statis
kesalahan (kesalahan string)
UnicodeDecode.Options statis
replaceControlCharacters (Boolean replaceControlCharacters)
UnicodeDecode.Options statis
replacementChar (Char pengganti panjang)
Keluaran <T>
barisSplit ()
Tensor int32 1D yang berisi pemisahan baris.

Metode Warisan

Metode Publik

Output publik <Bilangan Bulat> charValues ​​()

Tensor int32 1D yang berisi titik kode yang didekodekan.

UnicodeDecode statis publik <T> buat ( Lingkup lingkup, masukan Operan <String>, masukan StringEncoding, Kelas<T> Tsplits, Opsi... opsi)

Metode pabrik untuk membuat kelas yang membungkus operasi UnicodeDecode baru.

Parameter
cakupan ruang lingkup saat ini
memasukkan Teks yang akan diterjemahkan. Bisa berbentuk apa saja. Perhatikan bahwa outputnya diratakan ke vektor nilai char.
masukanPengkodean Pengodean teks dari string masukan. Ini adalah salah satu pengkodean yang didukung oleh konverter algoritmik ICU ucnv. Contoh: `"UTF-16", "US ASCII", "UTF-8"`.
pilihan membawa nilai atribut opsional
Kembali
  • contoh baru UnicodeDecode

public static UnicodeDecode <Long> buat ( Lingkup lingkup, input Operan <String>, String inputEncoding, Opsi... opsi)

Metode pabrik untuk membuat kelas yang membungkus operasi UnicodeDecode baru menggunakan tipe keluaran default.

Parameter
cakupan ruang lingkup saat ini
memasukkan Teks yang akan diterjemahkan. Bisa berbentuk apa saja. Perhatikan bahwa outputnya diratakan ke vektor nilai char.
masukanPengkodean Pengodean teks dari string masukan. Ini adalah salah satu pengkodean yang didukung oleh konverter algoritmik ICU ucnv. Contoh: `"UTF-16", "US ASCII", "UTF-8"`.
pilihan membawa nilai atribut opsional
Kembali
  • contoh baru UnicodeDecode

kesalahan UnicodeDecode.Options statis publik (kesalahan string)

Parameter
kesalahan Kebijakan penanganan kesalahan ketika ditemukan format yang tidak valid pada input. Nilai 'strict' akan menyebabkan operasi menghasilkan kesalahan InvalidArgument pada format input apa pun yang tidak valid. Nilai 'ganti' (default) akan menyebabkan operasi mengganti format apa pun yang tidak valid dalam input dengan titik kode `replacement_char`. Nilai 'abaikan' akan menyebabkan operasi melewatkan format masukan yang tidak valid dan tidak menghasilkan karakter keluaran yang sesuai.

UnicodeDecode.Options replaceControlCharacters statis publik (Boolean replaceControlCharacters)

Parameter
gantiControlCharacters Apakah akan mengganti karakter kontrol C0 (00-1F) dengan `replacement_char`. Standarnya salah.

UnicodeDecode statis publik.Options replacementChar (Char pengganti panjang)

Parameter
penggantianChar Titik kode karakter pengganti yang akan digunakan sebagai pengganti format yang tidak valid pada input ketika `errors='replace'`. Titik kode unicode apa pun yang valid dapat digunakan. Nilai default karakter pengganti unicode default adalah 0xFFFD atau U+65533.)

Keluaran publik <T> rowSplits ()

Tensor int32 1D yang berisi pemisahan baris.