UnicodeDecode

public final class UnicodeDecode

Decodifica ogni stringa in "input" in una sequenza di punti di codice Unicode.

I codepoint dei caratteri per tutte le stringhe vengono restituiti utilizzando un singolo vettore "char_values", con le stringhe espanse in caratteri in ordine di riga principale.

Il tensore `row_splits` indica dove iniziano e finiscono i codepoint per ciascuna stringa di input all'interno del tensore` char_values`. In particolare, i valori per la `i`esima stringa (in ordine di riga maggiore) sono memorizzati nella slice` [row_splits [i]: row_splits [i + 1]] `. Quindi:

  • `char_values ​​[row_splits [i] + j]` è il punto di codice Unicode per il carattere `j`th nella stringa` i`th (in ordine di riga maggiore).
  • `row_splits [i + 1] - row_splits [i]` è il numero di caratteri nella `i`esima stringa (in ordine di riga maggiore).

Classi annidate

classe UnicodeDecode.Options Attributi facoltativi per UnicodeDecode

Metodi pubblici

Output <Integer>
charValues ()
Un tensore 1D int32 contenente i codepoint decodificati.
static <T extends Number> UnicodeDecode <T>
create ( ambito ambito, operando <String> input, string inputEncoding, Class <T> Tsplits, opzioni ... opzioni)
Metodo Factory per creare una classe che avvolge una nuova operazione UnicodeDecode.
static UnicodeDecode <Long>
create ( ambito ambito, operando <String> input, string inputEncoding, opzioni ... opzioni)
Metodo Factory per creare una classe che racchiude una nuova operazione UnicodeDecode utilizzando i tipi di output predefiniti.
UnicodeDecode.Options statico
errori ( errori di stringa)
UnicodeDecode.Options statico
replaceControlCharacters (Boolean replaceControlCharacters)
UnicodeDecode.Options statico
replacementChar (Long replacementChar)
Uscita <T>
rowSplits ()
Un tensore 1D int32 contenente le suddivisioni di riga.

Metodi ereditati

Metodi pubblici

output pubblico <Integer> charValues ()

Un tensore 1D int32 contenente i codepoint decodificati.

public static UnicodeDecode <T> create ( Scope scope, Operand <String> input, String inputEncoding, Class <T> Tsplits, Options ... options)

Metodo Factory per creare una classe che avvolge una nuova operazione UnicodeDecode.

Parametri
scopo ambito attuale
ingresso Il testo da decodificare. Può avere qualsiasi forma. Notare che l'output è appiattito a un vettore di valori char.
inputEncoding Codifica del testo delle stringhe di input. Questa è una qualsiasi delle codifiche supportate dai convertitori algoritmici ucnv di ICU. Esempi: "" UTF-16 "," US ASCII "," UTF-8 "".
opzioni trasporta valori di attributi opzionali
ritorna
  • una nuova istanza di UnicodeDecode

public static UnicodeDecode <Long> create ( ambito ambito, operando <String> input, string inputEncoding, opzioni ... opzioni)

Metodo Factory per creare una classe che racchiude una nuova operazione UnicodeDecode utilizzando i tipi di output predefiniti.

Parametri
scopo ambito attuale
ingresso Il testo da decodificare. Può avere qualsiasi forma. Notare che l'output è appiattito a un vettore di valori char.
inputEncoding Codifica del testo delle stringhe di input. Questa è una qualsiasi delle codifiche supportate dai convertitori algoritmici ucnv di ICU. Esempi: "" UTF-16 "," US ASCII "," UTF-8 "".
opzioni trasporta valori di attributi opzionali
ritorna
  • una nuova istanza di UnicodeDecode

errori statici pubblici UnicodeDecode.Options (errori di stringa)

Parametri
errori Errore di gestione dei criteri quando è stata rilevata una formattazione non valida nell'input. Il valore di "strict" farà sì che l'operazione produca un errore InvalidArgument su qualsiasi formattazione di input non valida. Un valore di 'replace' (il predefinito) farà sì che l'operazione sostituisca qualsiasi formattazione non valida nell'input con il punto di codice `replacement_char`. Un valore di "ignore" farà sì che l'operazione salti qualsiasi formattazione non valida nell'input e non produrrà alcun carattere di output corrispondente.

public static UnicodeDecode.Options replaceControlCharacters (Boolean replaceControlCharacters)

Parametri
replaceControlCharacters Se sostituire i caratteri di controllo C0 (00-1F) con `replacement_char`. L'impostazione predefinita è false.

public static UnicodeDecode.Options replacementChar (Long replacementChar)

Parametri
replacementChar Il punto di codice del carattere sostitutivo da utilizzare al posto di qualsiasi formattazione non valida nell'input quando "errori =" sostituisci "". È possibile utilizzare qualsiasi punto di codice Unicode valido. Il valore predefinito è il carattere di sostituzione Unicode predefinito è 0xFFFD o U + 65533.)

output pubblico <T> rowSplits ()

Un tensore 1D int32 contenente le suddivisioni di riga.