UnicodeDecode

publiczna klasa końcowa UnicodeDecode

Dekoduje każdy ciąg znaków na wejściu w sekwencję punktów kodowych Unicode.

Punkty kodowe znaków dla wszystkich ciągów znaków są zwracane przy użyciu pojedynczego wektora „char_values”, z ciągami rozwiniętymi do znaków w kolejności od głównych wierszy.

Tensor „row_splits” wskazuje, gdzie zaczynają się i kończą punkty kodowe każdego ciągu wejściowego w obrębie tensora „char_values”. W szczególności wartości „i” ciągu (w kolejności od głównego wiersza) są przechowywane w wycinku „[row_splits[i]:row_splits[i+1]]”. Zatem:

  • `char_values[row_splits[i]+j]` to punkt kodowy Unicode dla `j`-tego znaku w `i`-tym ciągu (w kolejności wierszy głównych).
  • `row_splits[i+1] - row_splits[i]` to liczba znaków w `i`-tym ciągu (w kolejności od głównego wiersza).

Klasy zagnieżdżone

klasa Opcje UnicodeDecode Opcjonalne atrybuty dla UnicodeDecode

Metody publiczne

Wyjście <liczba całkowita>
wartości znaków ()
Tensor 1D int32 zawierający zdekodowane punkty kodowe.
statyczny <T rozszerza numer> UnicodeDecode <T>
utwórz (zakres zakresu , wejście argumentu <String>, kodowanie wejścia ciągu, podział klasy <T>, opcje... opcje)
Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację UnicodeDecode.
statyczny UnicodeDecode <Long>
utwórz (zakres zakresu , wejście argumentu <String>, wejście ciągu znaków, kodowanie, opcje... opcje)
Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację UnicodeDecode przy użyciu domyślnych typów wyjściowych.
statyczne UnicodeDecode.Options
błędy (błędy ciągu)
statyczne UnicodeDecode.Options
zamieńControlCharacters (Boolean zamieńControlCharacters)
statyczne UnicodeDecode.Options
wymianaChar (długa wymianaChar)
Wyjście <T>
wierszSplits ()
Tensor 1D int32 zawierający podziały wierszy.

Metody dziedziczone

Metody publiczne

publiczne wyjście <Integer> charValues ​​()

Tensor 1D int32 zawierający zdekodowane punkty kodowe.

public static UnicodeDecode <T> create ( Zakres zakresu, Operand <String> wejście, String inputEncoding, Class<T> Tsplits, Opcje... opcje)

Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację UnicodeDecode.

Parametry
zakres aktualny zakres
wejście Tekst do rozszyfrowania. Może mieć dowolny kształt. Należy zauważyć, że dane wyjściowe są spłaszczane do wektora wartości znaków.
kodowanie wejściowe Kodowanie tekstu ciągów wejściowych. Jest to dowolne z kodowań obsługiwanych przez konwertery algorytmiczne ICU ucnv. Przykłady: `„UTF-16”, „US ASCII”, „UTF-8”`.
opcje przenosi opcjonalne wartości atrybutów
Zwroty
  • nowa instancja UnicodeDecode

public static UnicodeDecode <Long> create ( Zakres zakresu, Operand <String> wejście, String inputEncoding, Opcje... opcje)

Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację UnicodeDecode przy użyciu domyślnych typów wyjściowych.

Parametry
zakres aktualny zakres
wejście Tekst do rozszyfrowania. Może mieć dowolny kształt. Należy zauważyć, że dane wyjściowe są spłaszczane do wektora wartości znaków.
kodowanie wejściowe Kodowanie tekstu ciągów wejściowych. Jest to dowolne z kodowań obsługiwanych przez konwertery algorytmiczne ICU ucnv. Przykłady: `„UTF-16”, „US ASCII”, „UTF-8”`.
opcje przenosi opcjonalne wartości atrybutów
Zwroty
  • nowa instancja UnicodeDecode

publiczne błędy statyczne UnicodeDecode.Options (błędy ciągu)

Parametry
błędy Zasady obsługi błędów w przypadku znalezienia nieprawidłowego formatowania na wejściu. Wartość „strict” spowoduje, że operacja wygeneruje błąd InvalidArgument w przypadku nieprawidłowego formatowania danych wejściowych. Wartość 'replace' (domyślna) spowoduje, że operacja zastąpi wszelkie nieprawidłowe formatowanie danych wejściowych punktem kodowym `replacement_char`. Wartość „ignore” spowoduje, że operacja pominie wszelkie nieprawidłowe formatowanie na wejściu i nie wygeneruje odpowiedniego znaku wyjściowego.

public static UnicodeDecode.Options zamieńControlCharacters (Boolean zamieńControlCharacters)

Parametry
zamień znaki kontrolne Określa, czy zastąpić znaki kontrolne C0 (00-1F) znakiem `znak_zastępczy`. Wartość domyślna to fałsz.

public static UnicodeDecode.Options zamianaChar (długa zamianaChar)

Parametry
wymianaChar Punkt kodowy znaku zastępczego, który ma zostać użyty zamiast nieprawidłowego formatowania danych wejściowych, gdy `błędy='zamień'`. Można zastosować dowolny ważny punkt kodowy Unicode. Wartość domyślna to domyślny znak zastępczy Unicode to 0xFFFD lub U+65533.)

publiczne dane wyjściowe <T> rowSplits ()

Tensor 1D int32 zawierający podziały wierszy.