classe estática pública FixedUnigramCandidateSampler.Options
Atributos opcionais para FixedUnigramCandidateSampler
Métodos Públicos
FixoUnigramCandidateSampler.Options | distorção (distorção flutuante) |
FixoUnigramCandidateSampler.Options | numReservedIds (numReservedIds longos) |
FixoUnigramCandidateSampler.Options | numShards (numShards longos) |
FixoUnigramCandidateSampler.Options | semente (semente longa) |
FixoUnigramCandidateSampler.Options | seed2 (semente2 longa) |
FixoUnigramCandidateSampler.Options | fragmento (fragmento longo) |
FixoUnigramCandidateSampler.Options | unigramas (List<Float> unigramas) |
FixoUnigramCandidateSampler.Options | vocabFile (String vocabFile) |
Métodos herdados
Métodos Públicos
distorção pública FixedUnigramCandidateSampler.Options (distorção flutuante)
Parâmetros
distorção | A distorção é usada para distorcer a distribuição de probabilidade do unigrama. Cada peso é primeiro elevado à potência da distorção antes de ser adicionado à distribuição interna de unigramas. Como resultado, distorção = 1,0 fornece amostragem regular de unigramas (conforme definido pelo arquivo de vocabulário) e distorção = 0,0 fornece uma distribuição uniforme. |
---|
público FixoUnigramCandidateSampler.Options numReservedIds (Long numReservedIds)
Parâmetros
numReservedIds | Opcionalmente, alguns IDs reservados podem ser adicionados no intervalo [0, ..., num_reserved_ids) pelos usuários. Um caso de uso é que um token especial de palavra desconhecida seja usado como ID 0. Esses IDs terão uma probabilidade de amostragem de 0. |
---|
público FixoUnigramCandidateSampler.Options numShards (Long numShards)
Parâmetros
numShards | Um amostrador pode ser usado para amostrar um subconjunto do intervalo original, a fim de acelerar todo o cálculo por meio do paralelismo. Este parâmetro (juntamente com 'shard') indica o número de partições que estão sendo usadas no cálculo geral. |
---|
Semente pública FixedUnigramCandidateSampler.Options (semente longa)
Parâmetros
semente | Se seed ou seed2 forem definidos como diferentes de zero, o gerador de números aleatórios será propagado pela semente fornecida. Caso contrário, é semeado por uma semente aleatória. |
---|
public FixedUnigramCandidateSampler.Options seed2 (Long seed2)
Parâmetros
semente2 | Uma segunda semente para evitar colisão de sementes. |
---|
fragmento público FixedUnigramCandidateSampler.Options (fragmento longo)
Parâmetros
fragmento | Um amostrador pode ser usado para amostrar um subconjunto do intervalo original, a fim de acelerar todo o cálculo por meio do paralelismo. Este parâmetro (juntamente com 'num_shards') indica o número de partição específico de uma operação de amostragem, quando o particionamento está sendo usado. |
---|
public FixedUnigramCandidateSampler.Options unigramas (List<Float> unigramas)
Parâmetros
unigramas | Uma lista de contagens ou probabilidades de unigramas, uma por ID em ordem sequencial. Exatamente um dos vocab_file e unigrams deve ser passado para esta operação. |
---|
public FixedUnigramCandidateSampler.Options vocabFile (String vocabFile)
Parâmetros
arquivo de vocabulário | Cada linha válida neste arquivo (que deve ter um formato semelhante a CSV) corresponde a um ID de palavra válido. Os IDs estão em ordem sequencial, começando em num_reserved_ids. Espera-se que a última entrada em cada linha seja um valor correspondente à contagem ou probabilidade relativa. Exatamente um dos vocab_file e unigrams precisa ser passado para esta operação. |
---|