UnicodeTranscode

classe final pública UnicodeTranscode

Transcodifique o texto de entrada de uma codificação de origem para uma codificação de destino.

A entrada é um tensor de string de qualquer formato. A saída é um tensor de string do mesmo formato contendo as strings transcodificadas. As strings de saída são sempre Unicode válidas. Se a entrada contiver posições de codificação inválidas, o atributo `errors` define a política de como lidar com elas. Se a política padrão de tratamento de erros for usada, a formatação inválida será substituída na saída pelo `replacement_char`. Se a política de erros for `ignorar`, quaisquer posições de codificação inválidas na entrada serão ignoradas e não incluídas na saída. Se definido como `strict`, qualquer formatação inválida resultará em um erro InvalidArgument.

Esta operação pode ser usada com `output_encoding = input_encoding` para impor a formatação correta para entradas, mesmo que elas já estejam na codificação desejada.

Se a entrada for prefixada por uma Marca de Ordem de Byte necessária para determinar a codificação (por exemplo, se a codificação for UTF-16 e a BOM indicar big-endian), então essa BOM será consumida e não emitida na saída. Se a codificação de entrada estiver marcada com um endianness explícito (por exemplo, UTF-16-BE), então a lista técnica será interpretada como um espaço inseparável e será preservada na saída (inclusive sempre para UTF-8).

O resultado final é que se a entrada for marcada como endianness explícita, a transcodificação será fiel a todos os pontos de código na fonte. Se não estiver marcado com um endianness explícito, o BOM não será considerado parte da string em si, mas como metadados e, portanto, não será preservado na saída.

Exemplos:

>>> tf.strings.unicode_transcode(["Olá", "TensorFlow", "2.x"], "UTF-8", "UTF-16-BE") >>> tf.strings.unicode_transcode(["A", "B", "C"], "US ASCII", "UTF-8").numpy() array([b'A', b'B' , b'C'], dtype=objeto)

Classes aninhadas

aula UnicodeTranscode.Opções Atributos opcionais para UnicodeTranscode

Constantes

Corda OP_NAME O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow

Métodos Públicos

Saída <TString>
asOutput ()
Retorna o identificador simbólico do tensor.
UnicodeTranscode estático
create ( Escopo , Operando < TString > entrada, String inputEncoding, String outputEncoding, Opções... opções)
Método de fábrica para criar uma classe que envolve uma nova operação UnicodeTranscode.
UnicodeTranscode.Options estático
erros (erros de string)
Saída <TString>
saída ()
Um tensor de string contendo texto unicode codificado usando `output_encoding`.
UnicodeTranscode.Options estático
replaceControlCharacters (booleano replaceControlCharacters)
UnicodeTranscode.Options estático
replacementChar (substituição longaChar)

Métodos herdados

org.tensorflow.op.RawOp
booleano final
é igual (objeto obj)
int final
Operação
op ()
Retorne esta unidade de cálculo como uma única Operation .
sequência final
boleano
é igual (objeto arg0)
aula final<?>
getClass ()
interno
código hash ()
vazio final
notificar ()
vazio final
notificar todos ()
Corda
para sequenciar ()
vazio final
espere (long arg0, int arg1)
vazio final
espere (arg0 longo)
vazio final
espere ()
org.tensorflow.op.Op
ambiente de execução abstrato
env ()
Retorne o ambiente de execução em que esta operação foi criada.
operação abstrata
op ()
Retorne esta unidade de cálculo como uma única Operation .
org.tensorflow.Operand
Saída abstrata <TString>
asOutput ()
Retorna o identificador simbólico do tensor.
TString abstrato
comoTensor ()
Retorna o tensor neste operando.
forma abstrata
forma ()
Retorna a forma (possivelmente parcialmente conhecida) do tensor referido pela Output deste operando.
Classe abstrata< TString >
tipo ()
Retorna o tipo de tensor deste operando
org.tensorflow.ndarray.Shaped
abstrato int
forma abstrata
forma ()
abstrato longo
tamanho ()
Calcula e retorna o tamanho total deste contêiner, em número de valores.

Constantes

String final estática pública OP_NAME

O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow

Valor constante: "UnicodeTranscode"

Métodos Públicos

Saída pública < TString > asOutput ()

Retorna o identificador simbólico do tensor.

As entradas para operações do TensorFlow são saídas de outra operação do TensorFlow. Este método é usado para obter um identificador simbólico que representa o cálculo da entrada.

public static UnicodeTranscode create ( Escopo escopo , Operando < TString > entrada, String inputEncoding, String outputEncoding, Opções... opções)

Método de fábrica para criar uma classe que envolve uma nova operação UnicodeTranscode.

Parâmetros
escopo escopo atual
entrada O texto a ser processado. Pode ter qualquer formato.
codificação de entrada Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: `"UTF-16", "US ASCII", "UTF-8"`.
codificação de saída A codificação unicode a ser usada na saída. Deve ser um entre `"UTF-8", "UTF-16-BE", "UTF-32-BE"`. As codificações multibyte serão big endian.
opções carrega valores de atributos opcionais
Devoluções
  • uma nova instância de UnicodeTranscode

Erros públicos estáticos de UnicodeTranscode.Options (erros de string)

Parâmetros
erros Política de tratamento de erros quando há formatação inválida encontrada na entrada. O valor de 'strict' fará com que a operação produza um erro InvalidArgument em qualquer formatação de entrada inválida. Um valor 'replace' (o padrão) fará com que a operação substitua qualquer formatação inválida na entrada pelo codepoint `replacement_char`. Um valor 'ignorar' fará com que a operação ignore qualquer formatação inválida na entrada e não produza nenhum caractere de saída correspondente.

saída pública < TString > saída ()

Um tensor de string contendo texto unicode codificado usando `output_encoding`.

público estático UnicodeTranscode.Options replaceControlCharacters (booleano replaceControlCharacters)

Parâmetros
substituirControlCharacters Se deve substituir os caracteres de controle C0 (00-1F) pelo `replacement_char`. O padrão é falso.

public static UnicodeTranscode.Options replacementChar (Long replacementChar)

Parâmetros
substituiçãoChar O ponto de código do caractere de substituição a ser usado no lugar de qualquer formatação inválida na entrada quando `errors='replace'`. Qualquer ponto de código Unicode válido pode ser usado. O valor padrão é que o caractere de substituição unicode padrão é 0xFFFD ou U+65533.)

Observe que para UTF-8, passar um caractere de substituição expressável em 1 byte, como ' ', preservará o alinhamento da string com a fonte, pois os bytes inválidos serão substituídos por uma substituição de 1 byte. Para UTF-16-BE e UTF-16-LE, qualquer caractere de substituição de 1 ou 2 bytes preservará o alinhamento de bytes com a origem.