FixedUnigramCandidateSampler.Options

classe statique publique FixedUnigramCandidateSampler.Options

Attributs facultatifs pour FixedUnigramCandidateSampler

Méthodes publiques

FixeUnigramCandidateSampler.Options
distorsion (distorsion flottante)
FixeUnigramCandidateSampler.Options
numReservedIds (numReservedIds longs)
FixeUnigramCandidateSampler.Options
numShards (numShards longs)
FixeUnigramCandidateSampler.Options
graine (graine longue)
FixeUnigramCandidateSampler.Options
graine2 (graine longue2)
FixeUnigramCandidateSampler.Options
fragment (fragment long)
FixeUnigramCandidateSampler.Options
unigrammes (List<Float> unigrammes)
FixeUnigramCandidateSampler.Options
fichiervocab (chaîne fichiervocab)

Méthodes héritées

Méthodes publiques

Distorsion publique FixedUnigramCandidateSampler.Options (distorsion flottante)

Paramètres
Distorsion La distorsion est utilisée pour fausser la distribution de probabilité de l'unigramme. Chaque poids est d'abord augmenté à la puissance de la distorsion avant de s'ajouter à la distribution interne de l'unigramme. En conséquence, distorsion = 1,0 donne un échantillonnage d'unigramme régulier (tel que défini par le fichier de vocabulaire) et distorsion = 0,0 donne une distribution uniforme.

public FixedUnigramCandidateSampler.Options numReservedIds (numReservedIds longs)

Paramètres
numReservedIds En option, certains identifiants réservés peuvent être ajoutés dans la plage [0, ..., num_reserved_ids) par les utilisateurs. Un cas d'utilisation est qu'un jeton de mot inconnu spécial est utilisé comme ID 0. Ces ID auront une probabilité d'échantillonnage de 0.

public FixedUnigramCandidateSampler.Options numShards (numShards longs)

Paramètres
nombre de fragments Un échantillonneur peut être utilisé pour échantillonner un sous-ensemble de la plage d'origine afin d'accélérer l'ensemble du calcul grâce au parallélisme. Ce paramètre (avec 'shard') indique le nombre de partitions utilisées dans le calcul global.

graine publique FixedUnigramCandidateSampler.Options (graine longue)

Paramètres
graine Si seed ou seed2 sont définis comme étant différents de zéro, le générateur de nombres aléatoires est amorcé par la graine donnée. Sinon, il est ensemencé par une graine aléatoire.

public FixedUnigramCandidateSampler.Options seed2 (Long seed2)

Paramètres
graine2 Une deuxième graine pour éviter la collision des graines.

Partition publique FixedUnigramCandidateSampler.Options (partition longue)

Paramètres
tesson Un échantillonneur peut être utilisé pour échantillonner un sous-ensemble de la plage d'origine afin d'accélérer l'ensemble du calcul grâce au parallélisme. Ce paramètre (avec 'num_shards') indique le numéro de partition particulier d'une opération d'échantillonnage, lorsque le partitionnement est utilisé.

Unigrammes publics FixedUnigramCandidateSampler.Options (Unigrammes List<Float>)

Paramètres
unigrammes Une liste de décomptes ou de probabilités d'unigrammes, un par ID dans un ordre séquentiel. Exactement l'un des vocabulaire_file et unigrammes doit être transmis à cette opération.

public FixedUnigramCandidateSampler.Options vocabFile (String vocabFile)

Paramètres
fichiervocab Chaque ligne valide de ce fichier (qui doit avoir un format de type CSV) correspond à un identifiant de mot valide. Les identifiants sont classés dans un ordre séquentiel, en commençant par num_reserved_ids. La dernière entrée de chaque ligne devrait être une valeur correspondant au nombre ou à la probabilité relative. Exactement l'un des vocabulaire_file et unigrammes doit être transmis à cette opération.