Esta página foi traduzida pela API Cloud Translation.

FixedUnigramCandidateSampler.Options

classe estática pública FixedUnigramCandidateSampler.Options

Atributos opcionais para FixedUnigramCandidateSampler

Métodos Públicos

FixoUnigramCandidateSampler.Options	distorção (distorção flutuante)
FixoUnigramCandidateSampler.Options	numReservedIds (numReservedIds longos)
FixoUnigramCandidateSampler.Options	numShards (numShards longos)
FixoUnigramCandidateSampler.Options	semente (semente longa)
FixoUnigramCandidateSampler.Options	seed2 (semente2 longa)
FixoUnigramCandidateSampler.Options	fragmento (fragmento longo)
FixoUnigramCandidateSampler.Options	unigramas (List<Float> unigramas)
FixoUnigramCandidateSampler.Options	vocabFile (String vocabFile)

Métodos herdados

Da classe java.lang.Object

boleano	é igual (objeto arg0)
aula final<?>	getClass ()
interno	código hash ()
vazio final	notificar ()
vazio final	notificar todos ()
Corda	para sequenciar ()
vazio final	espere (long arg0, int arg1)
vazio final	espere (arg0 longo)
vazio final	espere ()

Métodos Públicos

distorção pública FixedUnigramCandidateSampler.Options (distorção flutuante)

Parâmetros

distorção	A distorção é usada para distorcer a distribuição de probabilidade do unigrama. Cada peso é primeiro elevado à potência da distorção antes de ser adicionado à distribuição interna de unigramas. Como resultado, distorção = 1,0 fornece amostragem regular de unigramas (conforme definido pelo arquivo de vocabulário) e distorção = 0,0 fornece uma distribuição uniforme.

público FixoUnigramCandidateSampler.Options numReservedIds (Long numReservedIds)

Parâmetros

numReservedIds	Opcionalmente, alguns IDs reservados podem ser adicionados no intervalo [0, ..., num_reserved_ids) pelos usuários. Um caso de uso é que um token especial de palavra desconhecida seja usado como ID 0. Esses IDs terão uma probabilidade de amostragem de 0.

público FixoUnigramCandidateSampler.Options numShards (Long numShards)

Parâmetros

numShards	Um amostrador pode ser usado para amostrar um subconjunto do intervalo original, a fim de acelerar todo o cálculo por meio do paralelismo. Este parâmetro (juntamente com 'shard') indica o número de partições que estão sendo usadas no cálculo geral.

Semente pública FixedUnigramCandidateSampler.Options (semente longa)

Parâmetros

semente	Se seed ou seed2 forem definidos como diferentes de zero, o gerador de números aleatórios será propagado pela semente fornecida. Caso contrário, é semeado por uma semente aleatória.

public FixedUnigramCandidateSampler.Options seed2 (Long seed2)

Parâmetros

semente2	Uma segunda semente para evitar colisão de sementes.

fragmento público FixedUnigramCandidateSampler.Options (fragmento longo)

Parâmetros

fragmento	Um amostrador pode ser usado para amostrar um subconjunto do intervalo original, a fim de acelerar todo o cálculo por meio do paralelismo. Este parâmetro (juntamente com 'num_shards') indica o número de partição específico de uma operação de amostragem, quando o particionamento está sendo usado.

public FixedUnigramCandidateSampler.Options unigramas (List<Float> unigramas)

Parâmetros

unigramas	Uma lista de contagens ou probabilidades de unigramas, uma por ID em ordem sequencial. Exatamente um dos vocab_file e unigrams deve ser passado para esta operação.

public FixedUnigramCandidateSampler.Options vocabFile (String vocabFile)

Parâmetros

arquivo de vocabulário	Cada linha válida neste arquivo (que deve ter um formato semelhante a CSV) corresponde a um ID de palavra válido. Os IDs estão em ordem sequencial, começando em num_reserved_ids. Espera-se que a última entrada em cada linha seja um valor correspondente à contagem ou probabilidade relativa. Exatamente um dos vocab_file e unigrams precisa ser passado para esta operação.

Exceto em caso de indicação contrária, o conteúdo desta página é licenciado de acordo com a Licença de atribuição 4.0 do Creative Commons, e as amostras de código são licenciadas de acordo com a Licença Apache 2.0. Para mais detalhes, consulte as políticas do site do Google Developers. Java é uma marca registrada da Oracle e/ou afiliadas.

Última atualização 2025-07-26 UTC.