Decodifica cada cadena en "input" en una secuencia de puntos de código Unicode.
Los puntos de código de caracteres para todas las cadenas se devuelven utilizando un solo vector `char_values`, con cadenas expandidas a caracteres en orden de fila principal. De manera similar, las compensaciones de bytes de inicio de caracteres se devuelven utilizando un solo vector `char_to_byte_starts`, con cadenas expandidas en orden de fila principal.
El tensor `row_splits` indica dónde comienzan y terminan los puntos de código y las compensaciones de inicio para cada cadena de entrada dentro de los tensores` char_values` y `char_to_byte_starts`. En particular, los valores de la cadena `i`th (en orden de fila principal) se almacenan en el segmento` [row_splits [i]: row_splits [i + 1]] `. Por lo tanto:
- `char_values [row_splits [i] + j]` es el punto de código Unicode para el carácter `j`th en la cadena` i`th (en orden de fila mayor).
- `char_to_bytes_starts [row_splits [i] + j]` es el desplazamiento del byte inicial para el carácter `j`th en la cadena` i`th (en orden de fila mayor).
- `row_splits [i + 1] - row_splits [i]` es el número de caracteres en la cadena `i`th (en orden de fila mayor).
Clases anidadas
clase | UnicodeDecodeWithOffsets.Options | Los atributos opcionales para UnicodeDecodeWithOffsets |
Constantes
Cuerda | OP_NAME | El nombre de esta operación, como lo conoce el motor central de TensorFlow |
Métodos públicos
Salida < TInt64 > | charToByteStarts () Un tensor 1D int32 que contiene el índice de bytes en la cadena de entrada donde comienza cada carácter en `char_values`. |
Salida < TInt32 > | charValues () Un tensor 1D int32 que contiene los puntos de código decodificados. |
estáticas UnicodeDecodeWithOffsets < TInt64 > | crear ( Alcance alcance, operando < TString > entrada, Cadena InputEncoding, Opciones ... Opciones) Método de fábrica para crear una clase que envuelva una nueva operación UnicodeDecodeWithOffsets utilizando tipos de salida predeterminados. |
estática <T se extiende TNumber > UnicodeDecodeWithOffsets <T> | crear ( Alcance alcance, operando < TString > entrada, Cadena InputEncoding, Clase <T> Tsplits, Opciones ... Opciones) Método de fábrica para crear una clase que envuelva una nueva operación UnicodeDecodeWithOffsets. |
estáticas UnicodeDecodeWithOffsets.Options | errores (errores de Cuerda) |
estáticas UnicodeDecodeWithOffsets.Options | replaceControlCharacters (replaceControlCharacters booleanas) |
estáticas UnicodeDecodeWithOffsets.Options | replacementChar (Long replacementChar) |
Salida <T> | rowSplits () Un tensor 1D int32 que contiene las divisiones de filas. |
Métodos heredados
Constantes
OP_NAME pública final static String
El nombre de esta operación, como lo conoce el motor central de TensorFlow
Métodos públicos
pública de salida < TInt64 > charToByteStarts ()
Un tensor 1D int32 que contiene el índice de bytes en la cadena de entrada donde comienza cada carácter en `char_values`.
pública de salida < TInt32 > charValues ()
Un tensor 1D int32 que contiene los puntos de código decodificados.
estáticas pública UnicodeDecodeWithOffsets < TInt64 > create ( Alcance alcance, operando < TString > entrada, Cadena InputEncoding, Opciones ... Opciones)
Método de fábrica para crear una clase que envuelva una nueva operación UnicodeDecodeWithOffsets usando tipos de salida predeterminados.
Parámetros
alcance | alcance actual |
---|---|
aporte | El texto a decodificar. Puede tener cualquier forma. Tenga en cuenta que la salida se reduce a un vector de valores de caracteres. |
inputEncoding | Codificación de texto de las cadenas de entrada. Esta es cualquiera de las codificaciones admitidas por los convertidores algorítmicos ucnv de ICU. Ejemplos: "" UTF-16 "," US ASCII "," UTF-8 "`. |
opciones | lleva valores de atributos opcionales |
Devoluciones
- una nueva instancia de UnicodeDecodeWithOffsets
estáticas pública UnicodeDecodeWithOffsets <T> crear ( Alcance alcance, operando < TString > entrada, Cadena InputEncoding, Clase <T> Tsplits, Opciones ... Opciones)
Método de fábrica para crear una clase que envuelva una nueva operación UnicodeDecodeWithOffsets.
Parámetros
alcance | alcance actual |
---|---|
aporte | El texto a decodificar. Puede tener cualquier forma. Tenga en cuenta que la salida se reduce a un vector de valores de caracteres. |
inputEncoding | Codificación de texto de las cadenas de entrada. Esta es cualquiera de las codificaciones admitidas por los convertidores algorítmicos ucnv de ICU. Ejemplos: "" UTF-16 "," US ASCII "," UTF-8 "`. |
opciones | lleva valores de atributos opcionales |
Devoluciones
- una nueva instancia de UnicodeDecodeWithOffsets
estáticas pública UnicodeDecodeWithOffsets.Options errores (errores de Cuerda)
Parámetros
errores | Política de manejo de errores cuando se encuentra un formato no válido en la entrada. El valor de 'estricto' hará que la operación produzca un error InvalidArgument en cualquier formato de entrada no válido. Un valor de 'reemplazar' (el valor predeterminado) hará que la operación reemplace cualquier formato no válido en la entrada con el punto de código `replacement_char`. Un valor de 'ignorar' hará que la operación omita cualquier formato no válido en la entrada y no produzca ningún carácter de salida correspondiente. |
---|
estáticas pública UnicodeDecodeWithOffsets.Options replaceControlCharacters (replaceControlCharacters booleanas)
Parámetros
replaceControlCharacters | Ya sea para reemplazar los caracteres de control C0 (00-1F) con el `replacement_char`. El valor predeterminado es falso. |
---|
public static UnicodeDecodeWithOffsets.Options replacementChar (Long replacementChar)
Parámetros
reemplazoChar | El punto de código de carácter de reemplazo que se utilizará en lugar de cualquier formato no válido en la entrada cuando `errors = 'replace'`. Se puede utilizar cualquier punto de código Unicode válido. El valor predeterminado es el carácter de reemplazo Unicode predeterminado es 0xFFFD o U + 65533.) |
---|