GenerateVocabRemapping

GenerateVocabRemapping public final class

Dada una ruta a archivos de vocabulario nuevos y antiguos, devuelve un tensor de reasignación de

length `num_new_vocab`, donde` remapping [i] `contiene el número de fila en el vocabulario antiguo que corresponde a la fila` i` en el nuevo vocabulario (comenzando en la línea `new_vocab_offset` y hasta` num_new_vocab` entidades), o `- 1` si la entrada `i` en el vocabulario nuevo no está en el vocabulario antiguo. El vocabulario antiguo se limita a las primeras entradas de `old_vocab_size` si` old_vocab_size` no es el valor predeterminado de -1.

`num_vocab_offset` habilita el uso en el caso de la variable particionada, y generalmente debe establecerse examinando la información de particionamiento. El formato de los archivos debe ser un archivo de texto, y cada línea debe contener una única entidad dentro del vocabulario.

Por ejemplo, con `new_vocab_file` un archivo de texto que contiene cada uno de los siguientes elementos en una sola línea:` [f0, f1, f2, f3] `, old_vocab_file = [f1, f0, f3],` num_new_vocab = 3, new_vocab_offset = 1`, la reasignación devuelta sería `[0, -1, 2]`.

La operación también devuelve un recuento de cuántas entradas en el vocabulario nuevo estaban presentes en el vocabulario anterior, que se usa para calcular el número de valores para inicializar en una reasignación de matriz de peso.

Esta funcionalidad se puede usar para reasignar vocabularios de fila (generalmente, características) y vocabularios de columna (generalmente, clases) de los puntos de control de TensorFlow. Tenga en cuenta que la lógica de partición se basa en vocabularios contiguos correspondientes a variables divididas en div. Además, la reasignación subyacente usa una IndexTable (a diferencia de una CuckooTable inexacta), por lo que el código del cliente debe usar la correspondiente index_table_from_file () como lo hace el marco FeatureColumn (a diferencia de tf.feature_to_id (), que usa una CuckooTable).

Clases anidadas

clase GenerateVocabRemapping.Options Los atributos opcionales para GenerateVocabRemapping

Constantes

Cuerda OP_NAME El nombre de esta operación, como lo conoce el motor central de TensorFlow

Métodos públicos

estática GenerateVocabRemapping
crear ( Alcance alcance, operando < TString > newVocabFile, operando < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Opciones ... Opciones)
Método de fábrica para crear una clase que envuelva una nueva operación GenerateVocabRemapping.
Salida < TInt32 >
numPresent ()
Número de nuevas entradas de vocabulario encontradas en vocabulario antiguo.
estáticas GenerateVocabRemapping.Options
oldVocabSize (Long oldVocabSize)
Salida < TInt64 >
reasignación ()
Un tensor de longitud num_new_vocab donde el elemento en el índice i es igual al ID antiguo que se asigna al nuevo ID i.

Métodos heredados

Constantes

OP_NAME pública final static String

El nombre de esta operación, como lo conoce el motor central de TensorFlow

Valor constante: "GenerateVocabRemapping"

Métodos públicos

public static GenerateVocabRemapping crear ( Alcance alcance, operando < TString > newVocabFile, operando < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Opciones ... Opciones)

Método de fábrica para crear una clase que envuelva una nueva operación GenerateVocabRemapping.

Parámetros
alcance alcance actual
newVocabFile Ruta al nuevo archivo de vocabulario.
oldVocabFile Ruta al archivo de vocabulario antiguo.
newVocabOffset Cuántas entradas en el nuevo archivo de vocabulario para comenzar a leer.
numNewVocab Número de entradas en el nuevo archivo de vocabulario para reasignar.
opciones lleva valores de atributos opcionales
Devoluciones
  • una nueva instancia de GenerateVocabRemapping

pública de salida < TInt32 > numPresent ()

Número de nuevas entradas de vocabulario encontradas en vocabulario antiguo.

public static GenerateVocabRemapping.Options oldVocabSize (Long oldVocabSize)

Parámetros
oldVocabSize Número de entradas que se deben tener en cuenta en el archivo de vocabulario antiguo. Si es -1, usa todo el vocabulario antiguo.

pública de salida < TInt64 > reasignación ()

Un tensor de longitud num_new_vocab donde el elemento en el índice i es igual al ID antiguo que se asigna al nuevo ID i. Este elemento es -1 para cualquier ID nuevo que no se encuentre en el vocabulario anterior.