Decodifica cada string em `input` em uma sequência de pontos de código Unicode.
Os pontos de código de caracteres para todas as strings são retornados usando um único vetor `char_values`, com strings expandidas para caracteres na ordem da linha principal. Da mesma forma, os deslocamentos dos bytes iniciais dos caracteres são retornados usando um único vetor `char_to_byte_starts`, com strings expandidas na ordem da linha principal.
O tensor `row_splits` indica onde os pontos de código e deslocamentos iniciais para cada string de entrada começam e terminam dentro dos tensores `char_values` e `char_to_byte_starts`. Em particular, os valores para a `i`ésima string (na ordem da linha principal) são armazenados na fatia `[row_splits[i]:row_splits[i+1]]`. Por isso:
- `char_values[row_splits[i]+j]` é o ponto de código Unicode para o `j`-ésimo caractere na `i`-ésima string (na ordem principal da linha).
- `char_to_bytes_starts[row_splits[i]+j]` é o deslocamento do byte inicial para o `j`-ésimo caractere na `i`-ésima string (na ordem principal da linha).
- `row_splits[i+1] - row_splits[i]` é o número de caracteres na `i`ésima string (na ordem da linha principal).
Classes aninhadas
aula | UnicodeDecodeWithOffsets.Opções | Atributos opcionais para UnicodeDecodeWithOffsets |
Constantes
Corda | OP_NAME | O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow |
Métodos Públicos
Saída < TInt64 > | charToByteStarts () Um tensor 1D int32 contendo o índice de bytes na string de entrada onde cada caractere em `char_values` começa. |
Saída < TInt32 > | charValues () Um Tensor 1D int32 contendo os pontos de código decodificados. |
UnicodeDecodeWithOffsets estático < TInt64 > | |
estático <T estende TNumber > UnicodeDecodeWithOffsets <T> | |
UnicodeDecodeWithOffsets.Options estático | erros (erros de string) |
UnicodeDecodeWithOffsets.Options estático | replaceControlCharacters (booleano replaceControlCharacters) |
UnicodeDecodeWithOffsets.Options estático | replacementChar (substituição longaChar) |
Saída <T> | linhasDivisões () Um tensor 1D int32 contendo as divisões de linha. |
Métodos herdados
Constantes
String final estática pública OP_NAME
O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow
Métodos Públicos
Saída pública < TInt64 > charToByteStarts ()
Um tensor 1D int32 contendo o índice de bytes na string de entrada onde cada caractere em `char_values` começa.
Saída pública < TInt32 > charValues ()
Um Tensor 1D int32 contendo os pontos de código decodificados.
public static UnicodeDecodeWithOffsets < TInt64 > create ( Escopo do escopo , Operando < TString > entrada, String inputEncoding, Opções... opções)
Método de fábrica para criar uma classe que agrupa uma nova operação UnicodeDecodeWithOffsets usando tipos de saída padrão.
Parâmetros
escopo | escopo atual |
---|---|
entrada | O texto a ser decodificado. Pode ter qualquer formato. Observe que a saída é nivelada para um vetor de valores char. |
codificação de entrada | Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: `"UTF-16", "US ASCII", "UTF-8"`. |
opções | carrega valores de atributos opcionais |
Devoluções
- uma nova instância de UnicodeDecodeWithOffsets
public static UnicodeDecodeWithOffsets <T> create ( Escopo de escopo , Operando < TString > entrada, String inputEncoding, Class<T> Tsplits, Opções... opções)
Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecodeWithOffsets.
Parâmetros
escopo | escopo atual |
---|---|
entrada | O texto a ser decodificado. Pode ter qualquer formato. Observe que a saída é nivelada para um vetor de valores char. |
codificação de entrada | Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: `"UTF-16", "US ASCII", "UTF-8"`. |
opções | carrega valores de atributos opcionais |
Devoluções
- uma nova instância de UnicodeDecodeWithOffsets
Erros públicos estáticos de UnicodeDecodeWithOffsets.Options (erros de string)
Parâmetros
erros | Política de tratamento de erros quando há formatação inválida encontrada na entrada. O valor de 'strict' fará com que a operação produza um erro InvalidArgument em qualquer formatação de entrada inválida. Um valor 'replace' (o padrão) fará com que a operação substitua qualquer formatação inválida na entrada pelo codepoint `replacement_char`. Um valor 'ignorar' fará com que a operação ignore qualquer formatação inválida na entrada e não produza nenhum caractere de saída correspondente. |
---|
público estático UnicodeDecodeWithOffsets.Options replaceControlCharacters (booleano replaceControlCharacters)
Parâmetros
substituirControlCharacters | Se deve substituir os caracteres de controle C0 (00-1F) pelo `replacement_char`. O padrão é falso. |
---|
public static UnicodeDecodeWithOffsets.Options replacementChar (Long replacementChar)
Parâmetros
substituiçãoChar | O ponto de código do caractere de substituição a ser usado no lugar de qualquer formatação inválida na entrada quando `errors='replace'`. Qualquer ponto de código unicode válido pode ser usado. O valor padrão é que o caractere de substituição unicode padrão é 0xFFFD ou U+65533.) |
---|