UnicodeDecode

public final class UnicodeDecode

Decodifica cada string em `input` em uma sequência de pontos de código Unicode.

Os pontos de código de caracteres para todas as strings são retornados usando um único vetor `char_values`, com strings expandidas para caracteres na ordem da linha principal.

O tensor `row_splits` indica onde os pontos de código para cada string de entrada começam e terminam dentro do tensor` char_values`. Em particular, os valores para a `i`ésima string (na ordem maior da linha) são armazenados na fatia` [row_splits [i]: row_splits [i + 1]] `. Desse modo:

  • `char_values ​​[row_splits [i] + j]` é o ponto de código Unicode para o `j`ésimo caractere na` i`ésima string (na ordem da linha maior).
  • `row_splits [i + 1] - row_splits [i]` é o número de caracteres na `i`ésima string (na ordem da linha maior).

Classes aninhadas

aula UnicodeDecode.Options Atributos opcionais para UnicodeDecode

Métodos Públicos

Saída <Integer>
charValues ()
Um tensor int32 1D contendo os pontos de código decodificados.
static <T extends Number> UnicodeDecode <T>
criar ( escopo do escopo, entrada Operando <String>, String inputEncoding, Classe <T> Tsplits, Opções ... opções)
Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecode.
UnicodeDecode estático <Long>
criar ( escopo do escopo, entrada Operando <String>, String inputEncoding, Opções ... opções)
Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecode usando tipos de saída padrão.
static UnicodeDecode.Options
erros ( erros de string)
static UnicodeDecode.Options
replaceControlCharacters (Boolean replaceControlCharacters)
static UnicodeDecode.Options
SubstituiçãoChar (Long replacementChar)
Saída <T>
rowSplits ()
Um tensor 1D int32 contendo as divisões de linha.

Métodos herdados

Métodos Públicos

public Output <Integer> charValues ()

Um tensor int32 1D contendo os pontos de código decodificados.

public static UnicodeDecode <T> criar ( escopo de escopo, entrada de operando <String>, string inputEncoding, classe <T> Tsplits, opções ... opções)

Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecode.

Parâmetros
alcance escopo atual
entrada O texto a ser decodificado. Pode ter qualquer formato. Observe que a saída é achatada para um vetor de valores char.
inputEncoding Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: `" UTF-16 "," US ASCII "," UTF-8 "`.
opções carrega valores de atributos opcionais
Devoluções
  • uma nova instância de UnicodeDecode

public static UnicodeDecode <longo> create ( Scope escopo, Operando <String> entrada, String InputEncoding, Options ... Opções)

Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecode usando tipos de saída padrão.

Parâmetros
alcance escopo atual
entrada O texto a ser decodificado. Pode ter qualquer formato. Observe que a saída é achatada para um vetor de valores char.
inputEncoding Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: `" UTF-16 "," US ASCII "," UTF-8 "`.
opções carrega valores de atributos opcionais
Devoluções
  • uma nova instância de UnicodeDecode

public static UnicodeDecode.Options errors (String erros)

Parâmetros
erros Política de tratamento de erros quando uma formatação inválida é encontrada na entrada. O valor de 'estrito' fará com que a operação produza um erro InvalidArgument em qualquer formatação de entrada inválida. Um valor de 'substituir' (o padrão) fará com que a operação substitua qualquer formatação inválida na entrada pelo ponto de código `substituição_char`. Um valor de 'ignorar' fará com que a operação ignore qualquer formatação inválida na entrada e não produza nenhum caractere de saída correspondente.

public static UnicodeDecode.Options replaceControlCharacters (Boolean replaceControlCharacters)

Parâmetros
replaceControlCharacters Substituir os caracteres de controle C0 (00-1F) pelo `replacement_char`. O padrão é falso.

public static UnicodeDecode.Options replacementChar (Long replacementChar)

Parâmetros
SubstituiçãoChar O ponto de código do caractere de substituição a ser usado no lugar de qualquer formatação inválida na entrada quando `errors = 'replace'`. Qualquer ponto de código Unicode válido pode ser usado. O valor padrão é o caractere de substituição Unicode padrão é 0xFFFD ou U + 65533.)

public Output <T> rowSplits ()

Um tensor 1D int32 contendo as divisões de linha.