classe statique publique FixedUnigramCandidateSampler.Options
Attributs facultatifs pour FixedUnigramCandidateSampler
Méthodes publiques
FixeUnigramCandidateSampler.Options | distorsion (distorsion flottante) |
FixeUnigramCandidateSampler.Options | numReservedIds (numReservedIds longs) |
FixeUnigramCandidateSampler.Options | numShards (numShards longs) |
FixeUnigramCandidateSampler.Options | graine (graine longue) |
FixeUnigramCandidateSampler.Options | graine2 (graine longue2) |
FixeUnigramCandidateSampler.Options | fragment (fragment long) |
FixeUnigramCandidateSampler.Options | unigrammes (List<Float> unigrammes) |
FixeUnigramCandidateSampler.Options | fichiervocab (chaîne fichiervocab) |
Méthodes héritées
Méthodes publiques
Distorsion publique FixedUnigramCandidateSampler.Options (distorsion flottante)
Paramètres
Distorsion | La distorsion est utilisée pour fausser la distribution de probabilité de l'unigramme. Chaque poids est d'abord augmenté à la puissance de la distorsion avant de s'ajouter à la distribution interne de l'unigramme. En conséquence, distorsion = 1,0 donne un échantillonnage d'unigramme régulier (tel que défini par le fichier de vocabulaire) et distorsion = 0,0 donne une distribution uniforme. |
---|
public FixedUnigramCandidateSampler.Options numReservedIds (numReservedIds longs)
Paramètres
numReservedIds | En option, certains identifiants réservés peuvent être ajoutés dans la plage [0, ..., num_reserved_ids) par les utilisateurs. Un cas d'utilisation est qu'un jeton de mot inconnu spécial est utilisé comme ID 0. Ces ID auront une probabilité d'échantillonnage de 0. |
---|
public FixedUnigramCandidateSampler.Options numShards (numShards longs)
Paramètres
nombre de fragments | Un échantillonneur peut être utilisé pour échantillonner un sous-ensemble de la plage d'origine afin d'accélérer l'ensemble du calcul grâce au parallélisme. Ce paramètre (avec 'shard') indique le nombre de partitions utilisées dans le calcul global. |
---|
graine publique FixedUnigramCandidateSampler.Options (graine longue)
Paramètres
graine | Si seed ou seed2 sont définis comme étant différents de zéro, le générateur de nombres aléatoires est amorcé par la graine donnée. Sinon, il est ensemencé par une graine aléatoire. |
---|
public FixedUnigramCandidateSampler.Options seed2 (Long seed2)
Paramètres
graine2 | Une deuxième graine pour éviter la collision des graines. |
---|
Partition publique FixedUnigramCandidateSampler.Options (partition longue)
Paramètres
tesson | Un échantillonneur peut être utilisé pour échantillonner un sous-ensemble de la plage d'origine afin d'accélérer l'ensemble du calcul grâce au parallélisme. Ce paramètre (avec 'num_shards') indique le numéro de partition particulier d'une opération d'échantillonnage, lorsque le partitionnement est utilisé. |
---|
Unigrammes publics FixedUnigramCandidateSampler.Options (Unigrammes List<Float>)
Paramètres
unigrammes | Une liste de décomptes ou de probabilités d'unigrammes, un par ID dans un ordre séquentiel. Exactement l'un des vocabulaire_file et unigrammes doit être transmis à cette opération. |
---|
public FixedUnigramCandidateSampler.Options vocabFile (String vocabFile)
Paramètres
fichiervocab | Chaque ligne valide de ce fichier (qui doit avoir un format de type CSV) correspond à un identifiant de mot valide. Les identifiants sont classés dans un ordre séquentiel, en commençant par num_reserved_ids. La dernière entrée de chaque ligne devrait être une valeur correspondant au nombre ou à la probabilité relative. Exactement l'un des vocabulaire_file et unigrammes doit être transmis à cette opération. |
---|