FixedUnigramCandidateSampler.Options

clase estática pública FixUnigramCandidateSampler.Options

Atributos opcionales para FixedUnigramCandidateSampler

Métodos públicos

Se corrigió UnigramCandidateSampler.Options
distorsión (distorsión flotante)
Se corrigió UnigramCandidateSampler.Options
numReservedIds (NúmReservedIds largos)
Se corrigió UnigramCandidateSampler.Options
numShards (numShards largos)
Se corrigió UnigramCandidateSampler.Options
semilla (semilla larga)
Se corrigió UnigramCandidateSampler.Options
semilla2 (semilla larga2)
Se corrigió UnigramCandidateSampler.Options
fragmento (fragmento largo)
Se corrigió UnigramCandidateSampler.Options
unigramas (List<Float> unigramas)
Se corrigió UnigramCandidateSampler.Options
vocabFile (cadena vocabFile)

Métodos heredados

Métodos públicos

distorsión pública FixedUnigramCandidateSampler.Options (distorsión flotante)

Parámetros
distorsión La distorsión se utiliza para sesgar la distribución de probabilidad unigrama. Cada peso se eleva primero a la potencia de distorsión antes de agregarlo a la distribución interna de unigramas. Como resultado, la distorsión = 1,0 proporciona un muestreo regular de unigramas (como se define en el archivo de vocabulario) y la distorsión = 0,0 proporciona una distribución uniforme.

público FixedUnigramCandidateSampler.Options numReservedIds (NúmReservedIds largos)

Parámetros
númReservedIds Opcionalmente, los usuarios pueden agregar algunas ID reservadas en el rango [0, ..., num_reserved_ids). Un caso de uso es que se utiliza un token especial de palabra desconocida como ID 0. Estos ID tendrán una probabilidad de muestreo de 0.

público FixUnigramCandidateSampler.Options numShards (NumShards largos)

Parámetros
número de fragmentos Se puede utilizar un muestreador para tomar muestras de un subconjunto del rango original con el fin de acelerar todo el cálculo mediante el paralelismo. Este parámetro (junto con 'shard') indica el número de particiones que se utilizan en el cálculo general.

semilla pública FixedUnigramCandidateSampler.Options (semilla larga)

Parámetros
semilla Si seed o seed2 se configuran como distintos de cero, el generador de números aleatorios se siembra con la semilla dada. De lo contrario, se siembra con una semilla aleatoria.

público FixUnigramCandidateSampler.Options semilla2 (semilla larga2)

Parámetros
semilla2 Una segunda semilla para evitar la colisión de semillas.

fragmento público FixUnigramCandidateSampler.Options (fragmento largo)

Parámetros
casco Se puede utilizar un muestreador para tomar muestras de un subconjunto del rango original con el fin de acelerar todo el cálculo mediante el paralelismo. Este parámetro (junto con 'num_shards') indica el número de partición particular de una operación de muestra, cuando se utiliza la partición.

public FixedUnigramCandidateSampler.Options unigramas (List<Float> unigramas)

Parámetros
unigramas Una lista de recuentos o probabilidades de unigramas, uno por ID en orden secuencial. Se debe pasar exactamente uno de vocab_file y unigramas a esta operación.

público FixedUnigramCandidateSampler.Options vocabFile (cadena vocabFile)

Parámetros
archivovocab Cada línea válida en este archivo (que debe tener un formato similar a CSV) corresponde a una identificación de palabra válida. Los ID están en orden secuencial, comenzando desde num_reserved_ids. Se espera que la última entrada en cada línea sea un valor correspondiente al recuento o probabilidad relativa. Se debe pasar exactamente uno de vocab_file y unigramas a esta operación.