Dato un percorso ai file di vocabolario nuovi e vecchi, restituisce un tensore di rimappatura di
lunghezza `num_new_vocab`, dove `remapping[i]` contiene il numero di riga nel vecchio vocabolario che corrisponde alla riga `i` nel nuovo vocabolario (a partire dalla riga `new_vocab_offset` e fino a `num_new_vocab` entità), o `- 1` se la voce "i" nel nuovo vocabolario non è nel vecchio vocabolario. Il vecchio vocabolario è vincolato alle prime voci `old_vocab_size` se `old_vocab_size` non è il valore predefinito di -1.
`num_vocab_offset` consente l'uso nel caso della variabile partizionata e generalmente dovrebbe essere impostato esaminando le informazioni sul partizionamento. Il formato dei file dovrebbe essere un file di testo, con ogni riga contenente una singola entità all'interno del vocabolario.
Ad esempio, con `new_vocab_file` un file di testo contenente ciascuno dei seguenti elementi su una singola riga: `[f0, f1, f2, f3]`, old_vocab_file = [f1, f0, f3], `num_new_vocab = 3, new_vocab_offset = 1", la rimappatura restituita sarebbe "[0, -1, 2]".
L'operazione restituisce anche un conteggio di quante voci nel nuovo vocabolario erano presenti nel vecchio vocabolario, che viene utilizzato per calcolare il numero di valori da inizializzare in una rimappatura della matrice dei pesi
Questa funzionalità può essere utilizzata per rimappare sia i vocabolari di riga (in genere, funzionalità) che i vocabolari di colonna (in genere, classi) dai checkpoint di TensorFlow. Si noti che la logica di partizionamento si basa su vocabolari contigui corrispondenti a variabili partizionate da div. Inoltre, la rimappatura sottostante utilizza una IndexTable (al contrario di una CuckooTable inesatta), quindi il codice client dovrebbe utilizzare la corrispondente index_table_from_file() come fa il framework FeatureColumn (al contrario di tf.feature_to_id(), che utilizza una CuckooTable).
Classi nidificate
classe | GeneraVocabRemapping.Options | Attributi facoltativi per GenerateVocabRemapping |
Costanti
Corda | OP_NAME | Il nome di questa operazione, come noto al motore principale di TensorFlow |
Metodi pubblici
static GenerateVocabRemapping | |
Uscita < TInt32 > | numeroPresente () Numero di nuove voci di vocabolario trovate nel vecchio vocabolario. |
statico GenerateVocabRemapping.Options | oldVocabSize (vecchioVocabSize lungo) |
Uscita < TInt64 > | rimappatura () Un tensore di lunghezza num_new_vocab dove l'elemento all'indice i è uguale al vecchio ID che mappa al nuovo ID i. |
Metodi ereditati
Costanti
Stringa finale statica pubblica OP_NAME
Il nome di questa operazione, come noto al motore principale di TensorFlow
Metodi pubblici
public static GenerateVocabRemapping create ( Scope scope, Operando < TString > newVocabFile, Operando < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Opzioni... opzioni)
Metodo factory per creare una classe che racchiude una nuova operazione GenerateVocabRemapping.
Parametri
scopo | ambito attuale |
---|---|
nuovoVocabFile | Percorso del nuovo file vocab. |
oldVocabFile | Percorso del vecchio file vocab. |
newVocabOffset | Quante voci nel nuovo file vocabolario iniziare a leggere. |
numNewVocab | Numero di voci nel nuovo file vocab da rimappare. |
opzioni | trasporta valori di attributi opzionali |
ritorna
- una nuova istanza di GenerateVocabRemapping
output pubblico < TInt32 > numPresent ()
Numero di nuove voci di vocabolario trovate nel vecchio vocabolario.
public static GenerateVocabRemapping.Options oldVocabSize (Long oldVocabSize)
Parametri
oldVocabSize | Numero di voci nel vecchio file vocab da considerare. Se -1, usa l'intero vecchio vocabolario. |
---|