UnicodeDecode

UnicodeDecode public final class

Decodifica cada cadena en "input" en una secuencia de puntos de código Unicode.

Los puntos de código de caracteres para todas las cadenas se devuelven utilizando un único vector `char_values`, con cadenas expandidas a caracteres en orden de fila principal.

El tensor `row_splits` indica dónde comienzan y terminan los puntos de código para cada cadena de entrada dentro del tensor` char_values`. En particular, los valores de la cadena `i`th (en orden de fila principal) se almacenan en el segmento` [row_splits [i]: row_splits [i + 1]] `. Por lo tanto:

  • `char_values ​​[row_splits [i] + j]` es el punto de código Unicode para el carácter `j`th en la cadena` i`th (en orden de fila mayor).
  • `row_splits [i + 1] - row_splits [i]` es el número de caracteres en la cadena `i`th (en orden de fila mayor).

Clases anidadas

clase UnicodeDecode.Options Los atributos opcionales para UnicodeDecode

Métodos públicos

Salida <Integer>
charValues ()
Un tensor 1D int32 que contiene los puntos de código decodificados.
estática <T se extiende Número> UnicodeDecode <T>
crear ( Alcance alcance, operando <String> entrada, Cadena InputEncoding, Clase <T> Tsplits, Opciones ... Opciones)
Método de fábrica para crear una clase que envuelva una nueva operación UnicodeDecode.
estática UnicodeDecode <Larga>
crear ( Alcance alcance, operando <String> entrada, Cadena InputEncoding, Opciones ... Opciones)
Método de fábrica para crear una clase que envuelva una nueva operación UnicodeDecode utilizando tipos de salida predeterminados.
estáticas UnicodeDecode.Options
errores (errores de Cuerda)
estáticas UnicodeDecode.Options
replaceControlCharacters (replaceControlCharacters booleanas)
estáticas UnicodeDecode.Options
replacementChar (Long replacementChar)
Salida <T>
rowSplits ()
Un tensor 1D int32 que contiene las divisiones de filas.

Métodos heredados

Métodos públicos

pública de salida <Integer> charValues ()

Un tensor 1D int32 que contiene los puntos de código decodificados.

public static UnicodeDecode <T> crear ( Alcance alcance, operando <String> entrada, Cadena InputEncoding, Clase <T> Tsplits, Opciones ... Opciones)

Método de fábrica para crear una clase que envuelva una nueva operación UnicodeDecode.

Parámetros
alcance alcance actual
aporte El texto a decodificar. Puede tener cualquier forma. Tenga en cuenta que la salida se reduce a un vector de valores de caracteres.
inputEncoding Codificación de texto de las cadenas de entrada. Esta es cualquiera de las codificaciones admitidas por los convertidores algorítmicos ucnv de ICU. Ejemplos: "" UTF-16 "," US ASCII "," UTF-8 "`.
opciones lleva valores de atributos opcionales
Devoluciones
  • una nueva instancia de UnicodeDecode

public static UnicodeDecode <Larga> create ( Alcance alcance, operando <String> entrada, Cadena InputEncoding, Opciones ... Opciones)

Método de fábrica para crear una clase que envuelva una nueva operación UnicodeDecode utilizando tipos de salida predeterminados.

Parámetros
alcance alcance actual
aporte El texto a decodificar. Puede tener cualquier forma. Tenga en cuenta que la salida se reduce a un vector de valores de caracteres.
inputEncoding Codificación de texto de las cadenas de entrada. Esta es cualquiera de las codificaciones admitidas por los convertidores algorítmicos ucnv de ICU. Ejemplos: "" UTF-16 "," US ASCII "," UTF-8 "`.
opciones lleva valores de atributos opcionales
Devoluciones
  • una nueva instancia de UnicodeDecode

estáticas pública UnicodeDecode.Options errores (errores de Cuerda)

Parámetros
errores Política de manejo de errores cuando se encuentra un formato no válido en la entrada. El valor de 'estricto' hará que la operación produzca un error de argumento no válido en cualquier formato de entrada no válido. Un valor de 'reemplazar' (el predeterminado) hará que la operación reemplace cualquier formato inválido en la entrada con el punto de código `reemplazo_car`. Un valor de 'ignorar' hará que la operación omita cualquier formato no válido en la entrada y no produzca ningún carácter de salida correspondiente.

estáticas pública UnicodeDecode.Options replaceControlCharacters (replaceControlCharacters booleanas)

Parámetros
replaceControlCharacters Ya sea para reemplazar los caracteres de control C0 (00-1F) con el `replacement_char`. El valor predeterminado es falso.

public static UnicodeDecode.Options replacementChar (Long replacementChar)

Parámetros
reemplazoChar El punto de código de carácter de reemplazo que se utilizará en lugar de cualquier formato no válido en la entrada cuando `errors = 'replace'`. Se puede utilizar cualquier punto de código Unicode válido. El valor predeterminado es el carácter de reemplazo Unicode predeterminado es 0xFFFD o U + 65533.)

pública de salida <T> rowSplits ()

Un tensor 1D int32 que contiene las divisiones de filas.