GenerateVocabRemapping

classe final pública GenerateVocabRemapping

Dado um caminho para arquivos de vocabulário novos e antigos, retorna um Tensor de remapeamento de

comprimento `num_new_vocab`, onde `remapping[i]` contém o número da linha no vocabulário antigo que corresponde à linha `i` no novo vocabulário (começando na linha `new_vocab_offset` e até entidades `num_new_vocab`), ou `- 1` se a entrada `i` no novo vocabulário não estiver no vocabulário antigo. O vocabulário antigo é restrito às primeiras entradas `old_vocab_size` se `old_vocab_size` não for o valor padrão de -1.

`num_vocab_offset` permite o uso no caso de variável particionada e geralmente deve ser definido examinando as informações de particionamento. O formato dos arquivos deve ser um arquivo de texto, com cada linha contendo uma única entidade dentro do vocabulário.

Por exemplo, com `new_vocab_file` um arquivo de texto contendo cada um dos seguintes elementos em uma única linha: `[f0, f1, f2, f3]`, old_vocab_file = [f1, f0, f3], `num_new_vocab = 3, new_vocab_offset = 1`, o remapeamento retornado seria `[0, -1, 2]`.

A operação também retorna uma contagem de quantas entradas no novo vocabulário estavam presentes no vocabulário antigo, que é usado para calcular o número de valores a serem inicializados em um remapeamento de matriz de pesos

Essa funcionalidade pode ser usada para remapear vocabulários de linha (normalmente, recursos) e vocabulários de coluna (normalmente, classes) de pontos de verificação do TensorFlow. Observe que a lógica de particionamento depende de vocabulários contíguos correspondentes a variáveis ​​particionadas por div. Além disso, o remapeamento subjacente usa um IndexTable (em oposição a um CuckooTable inexato), portanto, o código do cliente deve usar o index_table_from_file() correspondente como a estrutura FeatureColumn faz (em oposição a tf.feature_to_id(), que usa um CuckooTable).

Classes aninhadas

aula GenerateVocabRemapping.Options Atributos opcionais para GenerateVocabRemapping

Constantes

Corda OP_NAME O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow

Métodos Públicos

GenerateVocabRemapping estático
create (Escopo do escopo , Operando < TString > newVocabFile, Operando < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Opções... opções)
Método de fábrica para criar uma classe que envolve uma nova operação GenerateVocabRemapping.
Saída < TInt32 >
numPresent ()
Número de novas entradas de vocabulário encontradas no vocabulário antigo.
GenerateVocabRemapping.Options estático
oldVocabSize (VocabSize longo e antigo)
Saída < TInt64 >
remapeamento ()
Um tensor de comprimento num_new_vocab onde o elemento no índice i é igual ao ID antigo que mapeia para o novo ID i.

Métodos herdados

Constantes

String final estática pública OP_NAME

O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow

Valor constante: "GenerateVocabRemapping"

Métodos Públicos

public static GenerateVocabRemapping create (Escopo escopo , Operando < TString > newVocabFile, Operando < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Opções... opções)

Método de fábrica para criar uma classe que envolve uma nova operação GenerateVocabRemapping.

Parâmetros
escopo escopo atual
novoVocabFile Caminho para o novo arquivo de vocabulário.
arquivoVocab antigo Caminho para o arquivo de vocabulário antigo.
novo VocabOffset Quantas entradas no novo arquivo de vocabulário para começar a ler.
numNewVocab Número de entradas no novo arquivo de vocabulário a serem remapeados.
opções carrega valores de atributos opcionais
Devoluções
  • uma nova instância de GenerateVocabRemapping

Saída pública < TInt32 > numPresent ()

Número de novas entradas de vocabulário encontradas no vocabulário antigo.

public static GenerateVocabRemapping.Options oldVocabSize (Long oldVocabSize)

Parâmetros
oldVocabSize Número de entradas no arquivo de vocabulário antigo a serem consideradas. Se -1, use todo o vocabulário antigo.

saída pública < TInt64 > remapeamento ()

Um tensor de comprimento num_new_vocab onde o elemento no índice i é igual ao ID antigo que mapeia para o novo ID i. Este elemento é -1 para qualquer novo ID que não seja encontrado no vocabulário antigo.