UnicodeDecodeWithOffsets

classe final pública UnicodeDecodeWithOffsets

Decodifica cada string em `input` em uma sequência de pontos de código Unicode.

Os pontos de código de caracteres para todas as strings são retornados usando um único vetor `char_values`, com strings expandidas para caracteres na ordem da linha principal. Da mesma forma, os deslocamentos dos bytes iniciais dos caracteres são retornados usando um único vetor `char_to_byte_starts`, com strings expandidas na ordem da linha principal.

O tensor `row_splits` indica onde os pontos de código e deslocamentos iniciais para cada string de entrada começam e terminam dentro dos tensores `char_values` e `char_to_byte_starts`. Em particular, os valores para a `i`ésima string (na ordem da linha principal) são armazenados na fatia `[row_splits[i]:row_splits[i+1]]`. Por isso:

  • `char_values[row_splits[i]+j]` é o ponto de código Unicode para o `j`-ésimo caractere na `i`-ésima string (na ordem principal da linha).
  • `char_to_bytes_starts[row_splits[i]+j]` é o deslocamento do byte inicial para o `j`-ésimo caractere na `i`-ésima string (na ordem principal da linha).
  • `row_splits[i+1] - row_splits[i]` é o número de caracteres na `i`ésima string (na ordem da linha principal).

Classes aninhadas

aula UnicodeDecodeWithOffsets.Opções Atributos opcionais para UnicodeDecodeWithOffsets

Constantes

Corda OP_NAME O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow

Métodos Públicos

Saída < TInt64 >
charToByteStarts ()
Um tensor 1D int32 contendo o índice de bytes na string de entrada onde cada caractere em `char_values` começa.
Saída < TInt32 >
charValues ()
Um Tensor 1D int32 contendo os pontos de código decodificados.
UnicodeDecodeWithOffsets estático < TInt64 >
create ( Escopo , Operando < TString > entrada, String inputEncoding, Opções... opções)
Método de fábrica para criar uma classe que agrupa uma nova operação UnicodeDecodeWithOffsets usando tipos de saída padrão.
estático <T estende TNumber > UnicodeDecodeWithOffsets <T>
create ( Escopo , Operando < TString > entrada, String inputEncoding, Class<T> Tsplits, Opções... opções)
Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecodeWithOffsets.
UnicodeDecodeWithOffsets.Options estático
erros (erros de string)
UnicodeDecodeWithOffsets.Options estático
replaceControlCharacters (booleano replaceControlCharacters)
UnicodeDecodeWithOffsets.Options estático
replacementChar (substituição longaChar)
Saída <T>
linhasDivisões ()
Um tensor 1D int32 contendo as divisões de linha.

Métodos herdados

Constantes

String final estática pública OP_NAME

O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow

Valor constante: "UnicodeDecodeWithOffsets"

Métodos Públicos

Saída pública < TInt64 > charToByteStarts ()

Um tensor 1D int32 contendo o índice de bytes na string de entrada onde cada caractere em `char_values` começa.

Saída pública < TInt32 > charValues ​​()

Um Tensor 1D int32 contendo os pontos de código decodificados.

public static UnicodeDecodeWithOffsets < TInt64 > create ( Escopo do escopo , Operando < TString > entrada, String inputEncoding, Opções... opções)

Método de fábrica para criar uma classe que agrupa uma nova operação UnicodeDecodeWithOffsets usando tipos de saída padrão.

Parâmetros
escopo escopo atual
entrada O texto a ser decodificado. Pode ter qualquer formato. Observe que a saída é nivelada para um vetor de valores char.
codificação de entrada Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: `"UTF-16", "US ASCII", "UTF-8"`.
opções carrega valores de atributos opcionais
Devoluções
  • uma nova instância de UnicodeDecodeWithOffsets

public static UnicodeDecodeWithOffsets <T> create ( Escopo de escopo , Operando < TString > entrada, String inputEncoding, Class<T> Tsplits, Opções... opções)

Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecodeWithOffsets.

Parâmetros
escopo escopo atual
entrada O texto a ser decodificado. Pode ter qualquer formato. Observe que a saída é nivelada para um vetor de valores char.
codificação de entrada Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: `"UTF-16", "US ASCII", "UTF-8"`.
opções carrega valores de atributos opcionais
Devoluções
  • uma nova instância de UnicodeDecodeWithOffsets

Erros públicos estáticos de UnicodeDecodeWithOffsets.Options (erros de string)

Parâmetros
erros Política de tratamento de erros quando há formatação inválida encontrada na entrada. O valor de 'strict' fará com que a operação produza um erro InvalidArgument em qualquer formatação de entrada inválida. Um valor 'replace' (o padrão) fará com que a operação substitua qualquer formatação inválida na entrada pelo codepoint `replacement_char`. Um valor 'ignorar' fará com que a operação ignore qualquer formatação inválida na entrada e não produza nenhum caractere de saída correspondente.

público estático UnicodeDecodeWithOffsets.Options replaceControlCharacters (booleano replaceControlCharacters)

Parâmetros
substituirControlCharacters Se deve substituir os caracteres de controle C0 (00-1F) pelo `replacement_char`. O padrão é falso.

public static UnicodeDecodeWithOffsets.Options replacementChar (Long replacementChar)

Parâmetros
substituiçãoChar O ponto de código do caractere de substituição a ser usado no lugar de qualquer formatação inválida na entrada quando `errors='replace'`. Qualquer ponto de código unicode válido pode ser usado. O valor padrão é que o caractere de substituição unicode padrão é 0xFFFD ou U+65533.)

Saída pública <T> rowSplits ()

Um tensor 1D int32 contendo as divisões de linha.