UnicodeDecodeWithOffsets

kelas akhir publik UnicodeDecodeWithOffsets

Mendekode setiap string di `input` menjadi rangkaian titik kode Unicode.

Titik kode karakter untuk semua string dikembalikan menggunakan satu vektor `char_values`, dengan string diperluas ke karakter dalam urutan baris-utama. Demikian pula, offset byte awal karakter dikembalikan menggunakan vektor tunggal `char_to_byte_starts`, dengan string diperluas dalam urutan baris-utama.

Tensor `row_splits` menunjukkan titik kode dan offset awal untuk setiap string masukan dimulai dan diakhiri dalam tensor `char_values` dan `char_to_byte_starts`. Secara khusus, nilai untuk string ke-i` (dalam urutan baris-mayor) disimpan dalam irisan `[row_splits[i]:row_splits[i+1]]`. Dengan demikian:

  • `char_values[row_splits[i]+j]` adalah titik kode Unicode untuk karakter ke-`j` dalam string ke-i` (dalam urutan baris-utama).
  • `char_to_bytes_starts[row_splits[i]+j]` adalah offset byte awal untuk karakter ke-`j` dalam string ke-i` (dalam urutan baris-utama).
  • `row_splits[i+1] - row_splits[i]` adalah jumlah karakter dalam string ke-i` (dalam urutan baris-mayor).

Kelas Bersarang

kelas UnicodeDecodeWithOffsets.Opsi Atribut opsional untuk UnicodeDecodeWithOffsets

Konstanta

Rangkaian OP_NAME Nama operasi ini dikenal dengan mesin inti TensorFlow

Metode Publik

Keluaran < TInt64 >
charToByteStarts ()
Tensor int32 1D yang berisi indeks byte dalam string input tempat setiap karakter dalam `char_values` dimulai.
Keluaran < TInt32 >
Nilai char ()
Tensor int32 1D yang berisi titik kode yang didekodekan.
UnicodeDecodeWithOffsets statis < TInt64 >
buat ( Lingkup lingkup, Operan <TString> input, String inputEncoding, Opsi... opsi)
Metode pabrik untuk membuat kelas yang membungkus operasi UnicodeDecodeWithOffsets baru menggunakan tipe keluaran default.
statis <T memperluas TNumber > UnicodeDecodeWithOffsets <T>
buat ( Lingkup lingkup, Operan < TString > input, String inputEncoding, Kelas<T> Tsplits, Opsi... opsi)
Metode pabrik untuk membuat kelas yang membungkus operasi UnicodeDecodeWithOffsets baru.
UnicodeDecodeWithOffsets.Options statis
kesalahan (kesalahan string)
UnicodeDecodeWithOffsets.Options statis
replaceControlCharacters (Boolean replaceControlCharacters)
UnicodeDecodeWithOffsets.Options statis
replacementChar (Char pengganti panjang)
Keluaran <T>
barisSplit ()
Tensor int32 1D yang berisi pemisahan baris.

Metode Warisan

Konstanta

String akhir statis publik OP_NAME

Nama operasi ini dikenal dengan mesin inti TensorFlow

Nilai Konstan: "UnicodeDecodeWithOffsets"

Metode Publik

Keluaran publik < TInt64 > charToByteStarts ()

Tensor int32 1D yang berisi indeks byte dalam string input tempat setiap karakter dalam `char_values` dimulai.

Keluaran publik < TInt32 > charValues ​​()

Tensor int32 1D yang berisi titik kode yang didekodekan.

public static UnicodeDecodeWithOffsets < TInt64 > buat ( Lingkup cakupan, Operan < TString > input, String inputEncoding, Opsi... opsi)

Metode pabrik untuk membuat kelas yang membungkus operasi UnicodeDecodeWithOffsets baru menggunakan tipe keluaran default.

Parameter
cakupan ruang lingkup saat ini
memasukkan Teks yang akan diterjemahkan. Bisa berbentuk apa saja. Perhatikan bahwa outputnya diratakan ke vektor nilai char.
masukanPengkodean Pengodean teks dari string masukan. Ini adalah salah satu pengkodean yang didukung oleh konverter algoritmik ICU ucnv. Contoh: `"UTF-16", "US ASCII", "UTF-8"`.
pilihan membawa nilai atribut opsional
Kembali
  • contoh baru UnicodeDecodeWithOffsets

public static UnicodeDecodeWithOffsets <T> buat ( Lingkup lingkup, Operan < TString > input, String inputEncoding, Kelas<T> Tsplits, Opsi... opsi)

Metode pabrik untuk membuat kelas yang membungkus operasi UnicodeDecodeWithOffsets baru.

Parameter
cakupan ruang lingkup saat ini
memasukkan Teks yang akan diterjemahkan. Bisa berbentuk apa saja. Perhatikan bahwa outputnya diratakan ke vektor nilai char.
masukanPengkodean Pengodean teks dari string masukan. Ini adalah salah satu pengkodean yang didukung oleh konverter algoritmik ICU ucnv. Contoh: `"UTF-16", "US ASCII", "UTF-8"`.
pilihan membawa nilai atribut opsional
Kembali
  • contoh baru UnicodeDecodeWithOffsets

kesalahan UnicodeDecodeWithOffsets.Options statis publik (kesalahan string)

Parameter
kesalahan Kebijakan penanganan kesalahan ketika ditemukan format yang tidak valid pada input. Nilai 'strict' akan menyebabkan operasi menghasilkan kesalahan InvalidArgument pada format input apa pun yang tidak valid. Nilai 'ganti' (default) akan menyebabkan operasi mengganti format apa pun yang tidak valid dalam input dengan titik kode `replacement_char`. Nilai 'abaikan' akan menyebabkan operasi melewatkan format apa pun yang tidak valid pada masukan dan tidak menghasilkan karakter keluaran yang sesuai.

UnicodeDecodeWithOffsets.Options replaceControlCharacters statis publik (Boolean replaceControlCharacters)

Parameter
gantiControlCharacters Apakah akan mengganti karakter kontrol C0 (00-1F) dengan `replacement_char`. Standarnya salah.

UnicodeDecodeWithOffsets statis publik.Options replacementChar (Char pengganti panjang)

Parameter
penggantianChar Titik kode karakter pengganti yang akan digunakan sebagai pengganti format yang tidak valid pada input ketika `errors='replace'`. Titik kode unicode apa pun yang valid dapat digunakan. Nilai default karakter pengganti unicode default adalah 0xFFFD atau U+65533.)

Keluaran publik <T> rowSplits ()

Tensor int32 1D yang berisi pemisahan baris.