Decodifica cada string em `input` em uma sequência de pontos de código Unicode.
Os pontos de código de caracteres para todas as strings são retornados usando um único vetor `char_values`, com strings expandidas para caracteres em ordem de linha principal.
O tensor `row_splits` indica onde os codepoints para cada string de entrada começam e terminam dentro do tensor `char_values`. Em particular, os valores para a `i`th string (em ordem de linha principal) são armazenados na fatia `[row_splits[i]:row_splits[i+1]]`. Por isso:
- `char_values[row_splits[i]+j]` é o ponto de código Unicode para o caractere `j`th na string `i`th (na ordem de linha principal).
- `row_splits[i+1] - row_splits[i]` é o número de caracteres na `i`th string (em ordem de linha principal).
Classes aninhadas
aula | UnicodeDecode.Options | Atributos opcionais para UnicodeDecode |
Métodos públicos
Saída <Inteiro> | charValues () Um tensor 1D int32 contendo os codepoints decodificados. |
estático <T estende Número> UnicodeDecode <T> | create ( Escopo do escopo, Operand <String> input, String inputEncoding, Class<T> Tsplits, Options... options) Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecode. |
estático UnicodeDecode <Long> | create ( Escopo do escopo, Operando <String> input, String inputEncoding, Options... options) Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecode usando tipos de saída padrão. |
estático UnicodeDecode.Options | erros (erros de string) |
estático UnicodeDecode.Options | replaceControlCharacters (booleano replaceControlCharacters) |
estático UnicodeDecode.Options | substituiçãoChar (Longa substituiçãoChar) |
Saída <T> | linhaSplit () Um tensor int32 1D contendo as divisões de linha. |
Métodos Herdados
Métodos públicos
public static UnicodeDecode <T> create ( Escopo do escopo, Operand <String> input, String inputEncoding, Class<T> Tsplits, Options... options)
Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecode.
Parâmetros
alcance | escopo atual |
---|---|
entrada | O texto a ser decodificado. Pode ter qualquer formato. Observe que a saída é achatada para um vetor de valores char. |
codificação de entrada | Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: `"UTF-16", "US ASCII", "UTF-8"`. |
opções | carrega valores de atributos opcionais |
Devoluções
- uma nova instância de UnicodeDecode
public static UnicodeDecode <Long> create ( Escopo do escopo, Operando <String> input, String inputEncoding, Options... options)
Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecode usando tipos de saída padrão.
Parâmetros
alcance | escopo atual |
---|---|
entrada | O texto a ser decodificado. Pode ter qualquer formato. Observe que a saída é achatada para um vetor de valores char. |
codificação de entrada | Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: `"UTF-16", "US ASCII", "UTF-8"`. |
opções | carrega valores de atributos opcionais |
Devoluções
- uma nova instância de UnicodeDecode
Erros públicos estáticos UnicodeDecode.Options ( erros de string)
Parâmetros
erros | Política de tratamento de erros quando há formatação inválida encontrada na entrada. O valor de 'strict' fará com que a operação produza um erro InvalidArgument em qualquer formatação de entrada inválida. Um valor de 'replace' (o padrão) fará com que a operação substitua qualquer formatação inválida na entrada pelo codepoint `replacement_char`. Um valor de 'ignore' fará com que a operação ignore qualquer formatação inválida na entrada e não produza nenhum caractere de saída correspondente. |
---|
public static UnicodeDecode.Options replaceControlCharacters (Boolean replaceControlCharacters)
Parâmetros
substituirControlCharacters | Se deve substituir os caracteres de controle C0 (00-1F) pelo `replacement_char`. O padrão é falso. |
---|
public static UnicodeDecode.Options replaceChar ( Long replaceChar)
Parâmetros
substituiçãoChar | O codepoint de caractere de substituição a ser usado no lugar de qualquer formatação inválida na entrada quando `errors='replace'`. Qualquer ponto de código unicode válido pode ser usado. O valor padrão é o caractere de substituição unicode padrão é 0xFFFD ou U+65533.) |
---|
Decodifica cada string em `input` em uma sequência de pontos de código Unicode.
Os pontos de código de caracteres para todas as strings são retornados usando um único vetor `char_values`, com strings expandidas para caracteres em ordem de linha principal.
O tensor `row_splits` indica onde os codepoints para cada string de entrada começam e terminam dentro do tensor `char_values`. Em particular, os valores para a `i`th string (em ordem de linha principal) são armazenados na fatia `[row_splits[i]:row_splits[i+1]]`. Por isso:
- `char_values[row_splits[i]+j]` é o ponto de código Unicode para o caractere `j`th na string `i`th (na ordem de linha principal).
- `row_splits[i+1] - row_splits[i]` é o número de caracteres na `i`th string (em ordem de linha principal).
Classes aninhadas
aula | UnicodeDecode.Options | Atributos opcionais para UnicodeDecode |
Métodos públicos
Saída <Inteiro> | charValues () Um tensor 1D int32 contendo os codepoints decodificados. |
estático <T estende Número> UnicodeDecode <T> | create ( Escopo do escopo, Operand <String> input, String inputEncoding, Class<T> Tsplits, Options... options) Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecode. |
estático UnicodeDecode <Long> | create ( Escopo do escopo, Operando <String> input, String inputEncoding, Options... options) Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecode usando tipos de saída padrão. |
estático UnicodeDecode.Options | erros (erros de string) |
estático UnicodeDecode.Options | replaceControlCharacters (booleano replaceControlCharacters) |
estático UnicodeDecode.Options | substituiçãoChar (Longa substituiçãoChar) |
Saída <T> | linhaSplit () Um tensor int32 1D contendo as divisões de linha. |
Métodos Herdados
Métodos públicos
public static UnicodeDecode <T> create ( Escopo do escopo, Operand <String> input, String inputEncoding, Class<T> Tsplits, Options... options)
Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecode.
Parâmetros
alcance | escopo atual |
---|---|
entrada | O texto a ser decodificado. Pode ter qualquer formato. Observe que a saída é achatada para um vetor de valores char. |
codificação de entrada | Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: `"UTF-16", "US ASCII", "UTF-8"`. |
opções | carrega valores de atributos opcionais |
Devoluções
- uma nova instância de UnicodeDecode
public static UnicodeDecode <Long> create ( Escopo do escopo, Operando <String> input, String inputEncoding, Options... options)
Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecode usando tipos de saída padrão.
Parâmetros
alcance | escopo atual |
---|---|
entrada | O texto a ser decodificado. Pode ter qualquer formato. Observe que a saída é achatada para um vetor de valores char. |
codificação de entrada | Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: `"UTF-16", "US ASCII", "UTF-8"`. |
opções | carrega valores de atributos opcionais |
Devoluções
- uma nova instância de UnicodeDecode
Erros públicos estáticos UnicodeDecode.Options ( erros de string)
Parâmetros
erros | Política de tratamento de erros quando há formatação inválida encontrada na entrada. O valor de 'strict' fará com que a operação produza um erro InvalidArgument em qualquer formatação de entrada inválida. Um valor de 'replace' (o padrão) fará com que a operação substitua qualquer formatação inválida na entrada pelo codepoint `replacement_char`. Um valor de 'ignore' fará com que a operação ignore qualquer formatação inválida na entrada e não produza nenhum caractere de saída correspondente. |
---|
public static UnicodeDecode.Options replaceControlCharacters (Boolean replaceControlCharacters)
Parâmetros
substituirControlCharacters | Se deve substituir os caracteres de controle C0 (00-1F) pelo `replacement_char`. O padrão é falso. |
---|
public static UnicodeDecode.Options replaceChar ( Long replaceChar)
Parâmetros
substituiçãoChar | O codepoint de caractere de substituição a ser usado no lugar de qualquer formatação inválida na entrada quando `errors='replace'`. Qualquer ponto de código unicode válido pode ser usado. O valor padrão é o caractere de substituição unicode padrão é 0xFFFD ou U+65533.) |
---|