clase estática pública FixUnigramCandidateSampler.Options
Atributos opcionales para FixedUnigramCandidateSampler
Métodos públicos
Se corrigió UnigramCandidateSampler.Options | distorsión (distorsión flotante) |
Se corrigió UnigramCandidateSampler.Options | numReservedIds (NúmReservedIds largos) |
Se corrigió UnigramCandidateSampler.Options | numShards (numShards largos) |
Se corrigió UnigramCandidateSampler.Options | semilla (semilla larga) |
Se corrigió UnigramCandidateSampler.Options | semilla2 (semilla larga2) |
Se corrigió UnigramCandidateSampler.Options | fragmento (fragmento largo) |
Se corrigió UnigramCandidateSampler.Options | unigramas (List<Float> unigramas) |
Se corrigió UnigramCandidateSampler.Options | vocabFile (cadena vocabFile) |
Métodos heredados
Métodos públicos
distorsión pública FixedUnigramCandidateSampler.Options (distorsión flotante)
Parámetros
distorsión | La distorsión se utiliza para sesgar la distribución de probabilidad unigrama. Cada peso se eleva primero a la potencia de distorsión antes de agregarlo a la distribución interna de unigramas. Como resultado, la distorsión = 1,0 proporciona un muestreo regular de unigramas (como se define en el archivo de vocabulario) y la distorsión = 0,0 proporciona una distribución uniforme. |
---|
público FixedUnigramCandidateSampler.Options numReservedIds (NúmReservedIds largos)
Parámetros
númReservedIds | Opcionalmente, los usuarios pueden agregar algunas ID reservadas en el rango [0, ..., num_reserved_ids). Un caso de uso es que se utiliza un token especial de palabra desconocida como ID 0. Estos ID tendrán una probabilidad de muestreo de 0. |
---|
público FixUnigramCandidateSampler.Options numShards (NumShards largos)
Parámetros
número de fragmentos | Se puede utilizar un muestreador para tomar muestras de un subconjunto del rango original con el fin de acelerar todo el cálculo mediante el paralelismo. Este parámetro (junto con 'shard') indica el número de particiones que se utilizan en el cálculo general. |
---|
semilla pública FixedUnigramCandidateSampler.Options (semilla larga)
Parámetros
semilla | Si seed o seed2 se configuran como distintos de cero, el generador de números aleatorios se siembra con la semilla dada. De lo contrario, se siembra con una semilla aleatoria. |
---|
público FixUnigramCandidateSampler.Options semilla2 (semilla larga2)
Parámetros
semilla2 | Una segunda semilla para evitar la colisión de semillas. |
---|
fragmento público FixUnigramCandidateSampler.Options (fragmento largo)
Parámetros
casco | Se puede utilizar un muestreador para tomar muestras de un subconjunto del rango original con el fin de acelerar todo el cálculo mediante el paralelismo. Este parámetro (junto con 'num_shards') indica el número de partición particular de una operación de muestra, cuando se utiliza la partición. |
---|
public FixedUnigramCandidateSampler.Options unigramas (List<Float> unigramas)
Parámetros
unigramas | Una lista de recuentos o probabilidades de unigramas, uno por ID en orden secuencial. Se debe pasar exactamente uno de vocab_file y unigramas a esta operación. |
---|
público FixedUnigramCandidateSampler.Options vocabFile (cadena vocabFile)
Parámetros
archivovocab | Cada línea válida en este archivo (que debe tener un formato similar a CSV) corresponde a una identificación de palabra válida. Los ID están en orden secuencial, comenzando desde num_reserved_ids. Se espera que la última entrada en cada línea sea un valor correspondiente al recuento o probabilidad relativa. Se debe pasar exactamente uno de vocab_file y unigramas a esta operación. |
---|