Étant donné un chemin vers les nouveaux et anciens fichiers de vocabulaire, renvoie un tenseur de remappage de
longueur `num_new_vocab`, où `remapping[i]` contient le numéro de ligne de l'ancien vocabulaire qui correspond à la ligne `i` dans le nouveau vocabulaire (en commençant à la ligne `new_vocab_offset` et jusqu'à `num_new_vocab` entités), ou `- 1` si l'entrée `i` dans le nouveau vocabulaire n'est pas dans l'ancien vocabulaire. L'ancien vocabulaire est limité aux premières entrées `old_vocab_size` si `old_vocab_size` n'est pas la valeur par défaut de -1.
`num_vocab_offset` permet l'utilisation dans le cas des variables partitionnées et doit généralement être défini en examinant les informations de partitionnement. Le format des fichiers doit être un fichier texte, chaque ligne contenant une seule entité du vocabulaire.
Par exemple, avec `new_vocab_file` un fichier texte contenant chacun des éléments suivants sur une seule ligne : `[f0, f1, f2, f3]`, old_vocab_file = [f1, f0, f3], `num_new_vocab = 3, new_vocab_offset = 1`, le remappage renvoyé serait `[0, -1, 2]`.
L'opération renvoie également le nombre d'entrées du nouveau vocabulaire présentes dans l'ancien vocabulaire, qui est utilisé pour calculer le nombre de valeurs à initialiser dans un remappage de matrice de poids.
Cette fonctionnalité peut être utilisée pour remapper à la fois les vocabulaires de lignes (généralement, les fonctionnalités) et les vocabulaires de colonnes (généralement, les classes) à partir des points de contrôle TensorFlow. Notez que la logique de partitionnement repose sur des vocabulaires contigus correspondant à des variables partitionnées en div. De plus, le remappage sous-jacent utilise un IndexTable (par opposition à un CuckooTable inexact), donc le code client doit utiliser le index_table_from_file() correspondant comme le fait le framework FeatureColumn (par opposition à tf.feature_to_id(), qui utilise un CuckooTable).
Classes imbriquées
classe | GénérerVocabRemapping.Options | Attributs facultatifs pour GenerateVocabRemapping |
Constantes
Chaîne | OP_NAME | Le nom de cette opération, tel que connu par le moteur principal TensorFlow |
Méthodes publiques
static GenerateVocabRemapping | |
Sortie < TInt32 > | numPrésent () Nombre de nouvelles entrées de vocabulaire trouvées dans l'ancien vocabulaire. |
statique GenerateVocabRemapping.Options | oldVocabSize (Longue vieilleVocabSize) |
Sortie < TInt64 > | remappage () Un Tensor de longueur num_new_vocab où l'élément à l'index i est égal à l'ancien ID qui correspond au nouvel ID i. |
Méthodes héritées
Constantes
chaîne finale statique publique OP_NAME
Le nom de cette opération, tel que connu par le moteur principal TensorFlow
Méthodes publiques
public static GenerateVocabRemapping create ( Scope scope, Operand < TString > newVocabFile, Operand < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Options... options)
Méthode d'usine pour créer une classe encapsulant une nouvelle opération GenerateVocabRemapping.
Paramètres
portée | portée actuelle |
---|---|
nouveauVocabFile | Chemin d'accès au nouveau fichier de vocabulaire. |
vieuxVocabFichier | Chemin d'accès à l'ancien fichier de vocabulaire. |
nouveauVocabOffset | Combien d'entrées dans le nouveau fichier de vocabulaire pour commencer la lecture. |
numNouveauVocab | Nombre d'entrées dans le nouveau fichier de vocabulaire à remapper. |
choix | porte des valeurs d'attributs facultatifs |
Retour
- une nouvelle instance de GenerateVocabRemapping
Sortie publique < TInt32 > numPresent ()
Nombre de nouvelles entrées de vocabulaire trouvées dans l'ancien vocabulaire.
public static GenerateVocabRemapping.Options oldVocabSize (Long oldVocabSize)
Paramètres
oldVocabSize | Nombre d'entrées dans l'ancien fichier de vocabulaire à prendre en compte. Si -1, utilisez tout l'ancien vocabulaire. |
---|