Dado um caminho para arquivos de vocabulário novos e antigos, retorna um Tensor de remapeamento de
comprimento `num_new_vocab`, onde `remapping[i]` contém o número da linha no vocabulário antigo que corresponde à linha `i` no novo vocabulário (começando na linha `new_vocab_offset` e até entidades `num_new_vocab`), ou `- 1` se a entrada `i` no novo vocabulário não estiver no vocabulário antigo. O vocabulário antigo é restrito às primeiras entradas `old_vocab_size` se `old_vocab_size` não for o valor padrão de -1.
`num_vocab_offset` permite o uso no caso de variável particionada e geralmente deve ser definido examinando as informações de particionamento. O formato dos arquivos deve ser um arquivo de texto, com cada linha contendo uma única entidade dentro do vocabulário.
Por exemplo, com `new_vocab_file` um arquivo de texto contendo cada um dos seguintes elementos em uma única linha: `[f0, f1, f2, f3]`, old_vocab_file = [f1, f0, f3], `num_new_vocab = 3, new_vocab_offset = 1`, o remapeamento retornado seria `[0, -1, 2]`.
A operação também retorna uma contagem de quantas entradas no novo vocabulário estavam presentes no vocabulário antigo, que é usado para calcular o número de valores a serem inicializados em um remapeamento de matriz de pesos
Essa funcionalidade pode ser usada para remapear vocabulários de linha (normalmente, recursos) e vocabulários de coluna (normalmente, classes) de pontos de verificação do TensorFlow. Observe que a lógica de particionamento depende de vocabulários contíguos correspondentes a variáveis particionadas por div. Além disso, o remapeamento subjacente usa um IndexTable (em oposição a um CuckooTable inexato), portanto, o código do cliente deve usar o index_table_from_file() correspondente como a estrutura FeatureColumn faz (em oposição a tf.feature_to_id(), que usa um CuckooTable).
Classes aninhadas
aula | GenerateVocabRemapping.Options | Atributos opcionais para GenerateVocabRemapping |
Constantes
Corda | OP_NAME | O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow |
Métodos Públicos
GenerateVocabRemapping estático | |
Saída < TInt32 > | numPresent () Número de novas entradas de vocabulário encontradas no vocabulário antigo. |
GenerateVocabRemapping.Options estático | oldVocabSize (VocabSize longo e antigo) |
Saída < TInt64 > | remapeamento () Um tensor de comprimento num_new_vocab onde o elemento no índice i é igual ao ID antigo que mapeia para o novo ID i. |
Métodos herdados
Constantes
String final estática pública OP_NAME
O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow
Métodos Públicos
public static GenerateVocabRemapping create (Escopo escopo , Operando < TString > newVocabFile, Operando < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Opções... opções)
Método de fábrica para criar uma classe que envolve uma nova operação GenerateVocabRemapping.
Parâmetros
escopo | escopo atual |
---|---|
novoVocabFile | Caminho para o novo arquivo de vocabulário. |
arquivoVocab antigo | Caminho para o arquivo de vocabulário antigo. |
novo VocabOffset | Quantas entradas no novo arquivo de vocabulário para começar a ler. |
numNewVocab | Número de entradas no novo arquivo de vocabulário a serem remapeados. |
opções | carrega valores de atributos opcionais |
Devoluções
- uma nova instância de GenerateVocabRemapping
Saída pública < TInt32 > numPresent ()
Número de novas entradas de vocabulário encontradas no vocabulário antigo.
public static GenerateVocabRemapping.Options oldVocabSize (Long oldVocabSize)
Parâmetros
oldVocabSize | Número de entradas no arquivo de vocabulário antigo a serem consideradas. Se -1, use todo o vocabulário antigo. |
---|