FixedUnigramCandidateSampler.Options

classe estática pública FixedUnigramCandidateSampler.Options

Atributos opcionais para FixedUnigramCandidateSampler

Métodos Públicos

FixoUnigramCandidateSampler.Options
distorção (distorção flutuante)
FixoUnigramCandidateSampler.Options
numReservedIds (numReservedIds longos)
FixoUnigramCandidateSampler.Options
numShards (numShards longos)
FixoUnigramCandidateSampler.Options
semente (semente longa)
FixoUnigramCandidateSampler.Options
seed2 (semente2 longa)
FixoUnigramCandidateSampler.Options
fragmento (fragmento longo)
FixoUnigramCandidateSampler.Options
unigramas (List<Float> unigramas)
FixoUnigramCandidateSampler.Options
vocabFile (String vocabFile)

Métodos herdados

Métodos Públicos

distorção pública FixedUnigramCandidateSampler.Options (distorção flutuante)

Parâmetros
distorção A distorção é usada para distorcer a distribuição de probabilidade do unigrama. Cada peso é primeiro elevado à potência da distorção antes de ser adicionado à distribuição interna de unigramas. Como resultado, distorção = 1,0 fornece amostragem regular de unigramas (conforme definido pelo arquivo de vocabulário) e distorção = 0,0 fornece uma distribuição uniforme.

público FixoUnigramCandidateSampler.Options numReservedIds (Long numReservedIds)

Parâmetros
numReservedIds Opcionalmente, alguns IDs reservados podem ser adicionados no intervalo [0, ..., num_reserved_ids) pelos usuários. Um caso de uso é que um token especial de palavra desconhecida seja usado como ID 0. Esses IDs terão uma probabilidade de amostragem de 0.

público FixoUnigramCandidateSampler.Options numShards (Long numShards)

Parâmetros
numShards Um amostrador pode ser usado para amostrar um subconjunto do intervalo original, a fim de acelerar todo o cálculo por meio do paralelismo. Este parâmetro (juntamente com 'shard') indica o número de partições que estão sendo usadas no cálculo geral.

Semente pública FixedUnigramCandidateSampler.Options (semente longa)

Parâmetros
semente Se seed ou seed2 forem definidos como diferentes de zero, o gerador de números aleatórios será propagado pela semente fornecida. Caso contrário, é semeado por uma semente aleatória.

public FixedUnigramCandidateSampler.Options seed2 (Long seed2)

Parâmetros
semente2 Uma segunda semente para evitar colisão de sementes.

fragmento público FixedUnigramCandidateSampler.Options (fragmento longo)

Parâmetros
fragmento Um amostrador pode ser usado para amostrar um subconjunto do intervalo original, a fim de acelerar todo o cálculo por meio do paralelismo. Este parâmetro (juntamente com 'num_shards') indica o número de partição específico de uma operação de amostragem, quando o particionamento está sendo usado.

public FixedUnigramCandidateSampler.Options unigramas (List<Float> unigramas)

Parâmetros
unigramas Uma lista de contagens ou probabilidades de unigramas, uma por ID em ordem sequencial. Exatamente um dos vocab_file e unigrams deve ser passado para esta operação.

public FixedUnigramCandidateSampler.Options vocabFile (String vocabFile)

Parâmetros
arquivo de vocabulário Cada linha válida neste arquivo (que deve ter um formato semelhante a CSV) corresponde a um ID de palavra válido. Os IDs estão em ordem sequencial, começando em num_reserved_ids. Espera-se que a última entrada em cada linha seja um valor correspondente à contagem ou probabilidade relativa. Exatamente um dos vocab_file e unigrams precisa ser passado para esta operação.