Mendekode setiap string di `input` menjadi rangkaian titik kode Unicode.
Titik kode karakter untuk semua string dikembalikan menggunakan satu vektor `char_values`, dengan string diperluas ke karakter dalam urutan baris-utama. Demikian pula, offset byte awal karakter dikembalikan menggunakan vektor tunggal `char_to_byte_starts`, dengan string diperluas dalam urutan baris-utama.
Tensor `row_splits` menunjukkan titik kode dan offset awal untuk setiap string masukan dimulai dan diakhiri dalam tensor `char_values` dan `char_to_byte_starts`. Secara khusus, nilai untuk string ke-i` (dalam urutan baris-mayor) disimpan dalam irisan `[row_splits[i]:row_splits[i+1]]`. Dengan demikian:
- `char_values[row_splits[i]+j]` adalah titik kode Unicode untuk karakter ke-`j` dalam string ke-i` (dalam urutan baris-utama).
- `char_to_bytes_starts[row_splits[i]+j]` adalah offset byte awal untuk karakter ke-`j` dalam string ke-i` (dalam urutan baris-utama).
- `row_splits[i+1] - row_splits[i]` adalah jumlah karakter dalam string ke-i` (dalam urutan baris-mayor).
Kelas Bersarang
kelas | UnicodeDecodeWithOffsets.Opsi | Atribut opsional untuk UnicodeDecodeWithOffsets |
Konstanta
Rangkaian | OP_NAME | Nama operasi ini dikenal dengan mesin inti TensorFlow |
Metode Publik
Keluaran < TInt64 > | charToByteStarts () Tensor int32 1D yang berisi indeks byte dalam string input tempat setiap karakter dalam `char_values` dimulai. |
Keluaran < TInt32 > | Nilai char () Tensor int32 1D yang berisi titik kode yang didekodekan. |
UnicodeDecodeWithOffsets statis < TInt64 > | |
statis <T memperluas TNumber > UnicodeDecodeWithOffsets <T> | |
UnicodeDecodeWithOffsets.Options statis | kesalahan (kesalahan string) |
UnicodeDecodeWithOffsets.Options statis | replaceControlCharacters (Boolean replaceControlCharacters) |
UnicodeDecodeWithOffsets.Options statis | replacementChar (Char pengganti panjang) |
Keluaran <T> | barisSplit () Tensor int32 1D yang berisi pemisahan baris. |
Metode Warisan
Konstanta
String akhir statis publik OP_NAME
Nama operasi ini dikenal dengan mesin inti TensorFlow
Metode Publik
Keluaran publik < TInt64 > charToByteStarts ()
Tensor int32 1D yang berisi indeks byte dalam string input tempat setiap karakter dalam `char_values` dimulai.
public static UnicodeDecodeWithOffsets < TInt64 > buat ( Lingkup cakupan, Operan < TString > input, String inputEncoding, Opsi... opsi)
Metode pabrik untuk membuat kelas yang membungkus operasi UnicodeDecodeWithOffsets baru menggunakan tipe keluaran default.
Parameter
cakupan | ruang lingkup saat ini |
---|---|
memasukkan | Teks yang akan diterjemahkan. Bisa berbentuk apa saja. Perhatikan bahwa outputnya diratakan ke vektor nilai char. |
masukanPengkodean | Pengodean teks dari string masukan. Ini adalah salah satu pengkodean yang didukung oleh konverter algoritmik ICU ucnv. Contoh: `"UTF-16", "US ASCII", "UTF-8"`. |
pilihan | membawa nilai atribut opsional |
Kembali
- contoh baru UnicodeDecodeWithOffsets
public static UnicodeDecodeWithOffsets <T> buat ( Lingkup lingkup, Operan < TString > input, String inputEncoding, Kelas<T> Tsplits, Opsi... opsi)
Metode pabrik untuk membuat kelas yang membungkus operasi UnicodeDecodeWithOffsets baru.
Parameter
cakupan | ruang lingkup saat ini |
---|---|
memasukkan | Teks yang akan diterjemahkan. Bisa berbentuk apa saja. Perhatikan bahwa outputnya diratakan ke vektor nilai char. |
masukanPengkodean | Pengodean teks dari string masukan. Ini adalah salah satu pengkodean yang didukung oleh konverter algoritmik ICU ucnv. Contoh: `"UTF-16", "US ASCII", "UTF-8"`. |
pilihan | membawa nilai atribut opsional |
Kembali
- contoh baru UnicodeDecodeWithOffsets
kesalahan UnicodeDecodeWithOffsets.Options statis publik (kesalahan string)
Parameter
kesalahan | Kebijakan penanganan kesalahan ketika ditemukan format yang tidak valid pada input. Nilai 'strict' akan menyebabkan operasi menghasilkan kesalahan InvalidArgument pada format input apa pun yang tidak valid. Nilai 'ganti' (default) akan menyebabkan operasi mengganti format apa pun yang tidak valid dalam input dengan titik kode `replacement_char`. Nilai 'abaikan' akan menyebabkan operasi melewatkan format apa pun yang tidak valid pada masukan dan tidak menghasilkan karakter keluaran yang sesuai. |
---|
UnicodeDecodeWithOffsets.Options replaceControlCharacters statis publik (Boolean replaceControlCharacters)
Parameter
gantiControlCharacters | Apakah akan mengganti karakter kontrol C0 (00-1F) dengan `replacement_char`. Standarnya salah. |
---|
UnicodeDecodeWithOffsets statis publik.Options replacementChar (Char pengganti panjang)
Parameter
penggantianChar | Titik kode karakter pengganti yang akan digunakan sebagai pengganti format yang tidak valid pada input ketika `errors='replace'`. Titik kode unicode apa pun yang valid dapat digunakan. Nilai default karakter pengganti unicode default adalah 0xFFFD atau U+65533.) |
---|