UnicodeDecodeWithOffsets

classe final pública UnicodeDecodeWithOffsets

Decodifica cada string em `input` em uma sequência de pontos de código Unicode.

Os pontos de código de caracteres para todas as strings são retornados usando um único vetor `char_values`, com strings expandidas para caracteres na ordem da linha principal. Da mesma forma, os deslocamentos dos bytes iniciais dos caracteres são retornados usando um único vetor `char_to_byte_starts`, com strings expandidas na ordem da linha principal.

O tensor `row_splits` indica onde os pontos de código e deslocamentos iniciais para cada string de entrada começam e terminam dentro dos tensores `char_values` e `char_to_byte_starts`. Em particular, os valores para a `i`ésima string (na ordem da linha principal) são armazenados na fatia `[row_splits[i]:row_splits[i+1]]`. Por isso:

  • `char_values[row_splits[i]+j]` é o ponto de código Unicode para o `j`-ésimo caractere na `i`-ésima string (na ordem principal da linha).
  • `char_to_bytes_starts[row_splits[i]+j]` é o deslocamento do byte inicial para o `j`-ésimo caractere na `i`-ésima string (na ordem principal da linha).
  • `row_splits[i+1] - row_splits[i]` é o número de caracteres na `i`ésima string (na ordem da linha principal).

Classes aninhadas

Constantes

Corda OP_NAME O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow

Métodos Públicos

Saída < TInt64 >
charToByteStarts ()
Um tensor 1D int32 contendo o índice de bytes na string de entrada onde cada caractere em `char_values` começa.
Saída < TInt32 >
charValues ()
Um Tensor 1D int32 contendo os pontos de código decodificados.
UnicodeDecodeWithOffsets estático < TInt64 >
create ( Escopo , Operando < TString > entrada, String inputEncoding, Opções... opções)
Método de fábrica para criar uma classe que agrupa uma nova operação UnicodeDecodeWithOffsets usando tipos de saída padrão.
estático <T estende TNumber > UnicodeDecodeWithOffsets <T>
create ( Escopo , Operando < TString > entrada, String inputEncoding, Class<T> Tsplits, Opções... opções)
Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecodeWithOffsets.
UnicodeDecodeWithOffsets.Options estático
erros (erros de string)
UnicodeDecodeWithOffsets.Options estático
replaceControlCharacters (booleano replaceControlCharacters)
UnicodeDecodeWithOffsets.Options estático
replacementChar (substituição longaChar)
Saída <T>
linhasDivisões ()
Um tensor 1D int32 contendo as divisões de linha.

Métodos herdados

org.tensorflow.op.RawOp
booleano final
é igual (objeto obj)
int final
Operação
op ()
Retorne esta unidade de cálculo como uma única Operation .
sequência final
boleano
é igual (objeto arg0)
aula final<?>
getClass ()
interno
código hash ()
vazio final
notificar ()
vazio final
notificar todos ()
Corda
para sequenciar ()
vazio final
espere (long arg0, int arg1)
vazio final
espere (arg0 longo)
vazio final
espere ()
org.tensorflow.op.Op
ambiente de execução abstrato
env ()
Retorne o ambiente de execução em que esta operação foi criada.
operação abstrata
op ()
Retorne esta unidade de cálculo como uma única Operation .

Constantes

String final estática pública OP_NAME

O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow

Valor constante: "UnicodeDecodeWithOffsets"

Métodos Públicos

Saída pública < TInt64 > charToByteStarts ()

Um tensor 1D int32 contendo o índice de bytes na string de entrada onde cada caractere em `char_values` começa.

Saída pública < TInt32 > charValues ​​()

Um Tensor 1D int32 contendo os pontos de código decodificados.

public static UnicodeDecodeWithOffsets < TInt64 > create ( Escopo do escopo , Operando < TString > entrada, String inputEncoding, Opções... opções)

Método de fábrica para criar uma classe que agrupa uma nova operação UnicodeDecodeWithOffsets usando tipos de saída padrão.

Parâmetros
escopo escopo atual
entrada O texto a ser decodificado. Pode ter qualquer formato. Observe que a saída é nivelada para um vetor de valores char.
codificação de entrada Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: `"UTF-16", "US ASCII", "UTF-8"`.
opções carrega valores de atributos opcionais
Devoluções
  • uma nova instância de UnicodeDecodeWithOffsets

public static UnicodeDecodeWithOffsets <T> create ( Escopo de escopo , Operando < TString > entrada, String inputEncoding, Class<T> Tsplits, Opções... opções)

Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecodeWithOffsets.

Parâmetros
escopo escopo atual
entrada O texto a ser decodificado. Pode ter qualquer formato. Observe que a saída é nivelada para um vetor de valores char.
codificação de entrada Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: `"UTF-16", "US ASCII", "UTF-8"`.
opções carrega valores de atributos opcionais
Devoluções
  • uma nova instância de UnicodeDecodeWithOffsets

Erros públicos estáticos de UnicodeDecodeWithOffsets.Options (erros de string)

Parâmetros
erros Política de tratamento de erros quando há formatação inválida encontrada na entrada. O valor de 'strict' fará com que a operação produza um erro InvalidArgument em qualquer formatação de entrada inválida. Um valor 'replace' (o padrão) fará com que a operação substitua qualquer formatação inválida na entrada pelo codepoint `replacement_char`. Um valor 'ignorar' fará com que a operação ignore qualquer formatação inválida na entrada e não produza nenhum caractere de saída correspondente.

público estático UnicodeDecodeWithOffsets.Options replaceControlCharacters (booleano replaceControlCharacters)

Parâmetros
substituirControlCharacters Se deve substituir os caracteres de controle C0 (00-1F) pelo `replacement_char`. O padrão é falso.

public static UnicodeDecodeWithOffsets.Options replacementChar (Long replacementChar)

Parâmetros
substituiçãoChar O ponto de código do caractere de substituição a ser usado no lugar de qualquer formatação inválida na entrada quando `errors='replace'`. Qualquer ponto de código unicode válido pode ser usado. O valor padrão é que o caractere de substituição unicode padrão é 0xFFFD ou U+65533.)

Saída pública <T> rowSplits ()

Um tensor 1D int32 contendo as divisões de linha.