FixedUnigramCandidateSampler.Options

classe statica pubblica FixedUnigramCandidateSampler.Options

Attributi facoltativi per FixedUnigramCandidateSampler

Metodi pubblici

Risolto il problema con UnigramCandidateSampler.Options
distorsione (distorsione mobile)
Risolto il problema con UnigramCandidateSampler.Options
numReservedIds (numReservedIds lunghi)
Risolto il problema con UnigramCandidateSampler.Options
numShards (numShards lunghi)
Risolto il problema con UnigramCandidateSampler.Options
seme (seme lungo)
Risolto il problema con UnigramCandidateSampler.Options
seme2 (seme lungo2)
Risolto il problema con UnigramCandidateSampler.Options
frammento (frammento lungo)
Risolto il problema con UnigramCandidateSampler.Options
unigrammi (List<Float> unigrammi)
Risolto il problema con UnigramCandidateSampler.Options
vocabFile (Stringa vocabFile)

Metodi ereditati

Metodi pubblici

public FixedUnigramCandidateSampler.Options distorsione (distorsione float)

Parametri
distorsione La distorsione viene utilizzata per distorcere la distribuzione di probabilità dell'unigramma. Ogni peso viene prima aumentato alla potenza della distorsione prima di aggiungerlo alla distribuzione unigramma interna. Di conseguenza, distorsione = 1.0 fornisce un campionamento unigramma regolare (come definito dal file vocab) e distorsione = 0.0 fornisce una distribuzione uniforme.

public FixedUnigramCandidateSampler.Options numReservedIds (Long numReservedIds)

Parametri
numReservedId Facoltativamente gli utenti possono aggiungere alcuni ID riservati nell'intervallo [0, ..., num_reserved_ids). Un caso d'uso è che uno speciale token di parola sconosciuta viene utilizzato come ID 0. Questi ID avranno una probabilità di campionamento pari a 0.

public FixedUnigramCandidateSampler.Options numShards (numShards lunghi)

Parametri
numShards È possibile utilizzare un campionatore per campionare da un sottoinsieme dell'intervallo originale per accelerare l'intero calcolo attraverso il parallelismo. Questo parametro (insieme a 'shard') indica il numero di partizioni utilizzate nel calcolo complessivo.

seed pubblico FixedUnigramCandidateSampler.Options (seed lungo)

Parametri
seme Se seed o seed2 sono impostati su un valore diverso da zero, il generatore di numeri casuali viene seminato dal seed specificato. Altrimenti, viene seminato da un seme casuale.

public FixedUnigramCandidateSampler.Options seed2 (Seed lungo2)

Parametri
seme2 Un secondo seme per evitare la collisione dei semi.

frammento pubblico FixedUnigramCandidateSampler.Options (frammento lungo)

Parametri
coccio È possibile utilizzare un campionatore per campionare da un sottoinsieme dell'intervallo originale per accelerare l'intero calcolo attraverso il parallelismo. Questo parametro (insieme a 'num_shards') indica il numero di partizione particolare di un'operazione di campionamento, quando viene utilizzato il partizionamento.

public FixedUnigramCandidateSampler.Options unigrammi (List<Float> unigrammi)

Parametri
unigrammi Un elenco di conteggi o probabilità di unigrammi, uno per ID in ordine sequenziale. A questa operazione dovrebbe essere passato esattamente uno tra vocab_file e unigrams.

public FixedUnigramCandidateSampler.Options vocabFile (String vocabFile)

Parametri
vocabFile Ogni riga valida in questo file (che dovrebbe avere un formato simile a CSV) corrisponde a un ID di parola valido. Gli ID sono in ordine sequenziale, a partire da num_reserved_ids. Si prevede che l'ultima voce in ciascuna riga sia un valore corrispondente al conteggio o alla probabilità relativa. A questa operazione deve essere passato esattamente uno tra vocab_file e unigrams.