Generuje etykiety dla próbkowania kandydatów z wyuczonym rozkładem unigramów.
Próbnik unigramów mógłby wykorzystać stałą dystrybucję unigramów odczytaną z pliku lub przekazaną jako tablica w pamięci, zamiast budować dystrybucję na podstawie danych w locie. Istnieje również możliwość pochylenia rozkładu poprzez zastosowanie mocy zniekształcenia do ciężarków.
Plik słownika powinien być w formacie CSV, przy czym ostatnie pole zawiera wagę związaną ze słowem.
Dla każdej partii ta operacja wybiera jeden zestaw próbek potencjalnych etykiet.
Zaletami pobierania próbek kandydatów na partię jest prostota i możliwość wydajnego mnożenia gęstej macierzy. Wadą jest to, że wybrani kandydaci muszą być wybierani niezależnie od kontekstu i prawdziwych etykiet.
Klasy zagnieżdżone
| klasa | NaprawionoUnigramCandidateSampler.Options | Opcjonalne atrybuty dla FixedUnigramCandidateSampler | |
Stałe
| Strunowy | OP_NAME | Nazwa tej operacji znana silnikowi rdzenia TensorFlow |
Metody publiczne
| statyczny NaprawionoUnigramCandidateSampler | utwórz ( Zakres zasięgu , Operand < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean unikalna, Long rangeMax, Opcje... opcje) Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację FixUnigramCandidateSampler. |
| statyczny NaprawionoUnigramCandidateSampler.Options | zniekształcenie (zniekształcenie pływające) |
| statyczny NaprawionoUnigramCandidateSampler.Options | numReservedIds (długie numReservedIds) |
| statyczny NaprawionoUnigramCandidateSampler.Options | numShards (długie numShards) |
| Dane wyjściowe <TInt64> | próbowani kandydaci () Wektor o długości num_sampled, w którym każdy element jest identyfikatorem wybranego kandydata. |
| Dane wyjściowe <TFloat32> | próbkowaneOczekiwaneLiczba () Wektor o długości num_sampled dla każdego wybranego kandydata reprezentujący oczekiwaną liczbę wystąpień danego kandydata w partii wybranych kandydatów. |
| statyczny NaprawionoUnigramCandidateSampler.Options | nasiona (długie nasiona) |
| statyczny NaprawionoUnigramCandidateSampler.Options | nasiona 2 (Długie nasiona 2) |
| statyczny NaprawionoUnigramCandidateSampler.Options | odłamek (długi odłamek) |
| Dane wyjściowe <TFloat32> | prawdaOczekiwana liczba () Macierz Batchsize * Num_true, reprezentująca oczekiwaną liczbę wystąpień każdego kandydata w partii wybranych kandydatów. |
| statyczny NaprawionoUnigramCandidateSampler.Options | unigramy (List<Float> unigramy) |
| statyczny NaprawionoUnigramCandidateSampler.Options | vocabFile (String vocabFile) |
Metody dziedziczone
Stałe
publiczny statyczny końcowy ciąg znaków OP_NAME
Nazwa tej operacji znana silnikowi rdzenia TensorFlow
Metody publiczne
public static FixUnigramCandidateSampler create ( Zakres zakresu, Operand < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean Unique, Long rangeMax, Opcje... opcje)
Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację FixUnigramCandidateSampler.
Parametry
| zakres | aktualny zakres |
|---|---|
| prawdziweKlasy | Macierz Batchsize * num_true, w której każdy wiersz zawiera identyfikatory klas docelowych num_true w odpowiedniej oryginalnej etykiecie. |
| liczbaTrue | Liczba prawdziwych etykiet na kontekst. |
| liczbapróbek | Liczba kandydatów do losowej próby. |
| unikalny | Jeżeli wartość Unikalność ma wartość true, pobieramy próbkę z odrzuceniem, tak aby wszyscy pobrani do próby kandydaci w partii byli unikatowi. Wymaga to pewnego przybliżenia w celu oszacowania prawdopodobieństw pobierania próbek po odrzuceniu. |
| zasięgMaks | Próbnik będzie próbkować liczby całkowite z przedziału [0, zakres_maks.). |
| opcje | przenosi opcjonalne wartości atrybutów |
Zwroty
- nowa instancja FixedUnigramCandidateSampler
publiczne statyczne Zniekształcenie FixUnigramCandidateSampler.Options (zniekształcenie typu Float)
Parametry
| zniekształcenie | Zniekształcenie służy do zniekształcenia rozkładu prawdopodobieństwa unigramu. Każda waga jest najpierw podnoszona do mocy zniekształcenia przed dodaniem do wewnętrznego rozkładu unigramów. W rezultacie zniekształcenie = 1,0 daje regularne próbkowanie unigramów (zgodnie z definicją w pliku słownika), a zniekształcenie = 0,0 daje równomierny rozkład. |
|---|
publiczny statyczny FixUnigramCandidateSampler.Options numReservedIds (Długie numReservedIds)
Parametry
| numReservedIds | Opcjonalnie użytkownicy mogą dodać zastrzeżone identyfikatory z zakresu [0, ..., num_reserved_ids). Jednym z przypadków użycia jest użycie specjalnego tokenu nieznanego słowa jako identyfikatora 0. Prawdopodobieństwo próbkowania tych identyfikatorów będzie wynosić 0. |
|---|
public static NaprawionoUnigramCandidateSampler.Options numShards (Long numShards)
Parametry
| liczbaodłamków | Próbnik może służyć do próbkowania z podzbioru pierwotnego zakresu, aby przyspieszyć całe obliczenia poprzez równoległość. Ten parametr (wraz z „shard”) wskazuje liczbę partycji używanych w ogólnych obliczeniach. |
|---|
publiczne dane wyjściowe < TInt64 > sampledCandidates ()
Wektor o długości num_sampled, w którym każdy element jest identyfikatorem wybranego kandydata.
publiczne wyjście < TFloat32 > sampledExpectedCount ()
Wektor o długości num_sampled dla każdego wybranego kandydata reprezentujący oczekiwaną liczbę wystąpień danego kandydata w partii wybranych kandydatów. Jeśli unikalny=true, to jest to prawdopodobieństwo.
public static NaprawionoUnigramCandidateSampler.Options ziarno (długie ziarno)
Parametry
| nasionko | Jeśli ziarno lub ziarno2 jest ustawione na wartość różną od zera, generator liczb losowych jest zaszczepiany przez dane ziarno. W przeciwnym razie jest on zaszczepiany losowo. |
|---|
publiczny statyczny FixUnigramCandidateSampler.Options nasiono2 (długie ziarno2)
Parametry
| ziarno2 | Drugie ziarno, aby uniknąć kolizji nasion. |
|---|
publiczny statyczny fragment FixUnigramCandidateSampler.Options (długi fragment)
Parametry
| czerep | Próbnik może służyć do próbkowania z podzbioru pierwotnego zakresu, aby przyspieszyć całe obliczenia poprzez równoległość. Ten parametr (wraz z „num_shards”) wskazuje konkretny numer partycji operacji próbnika, gdy używane jest partycjonowanie. |
|---|
publiczne wyjście < TFloat32 > trueExpectedCount ()
Macierz Batchsize * Num_true, reprezentująca oczekiwaną liczbę wystąpień każdego kandydata w partii wybranych kandydatów. Jeśli unikalny=true, to jest to prawdopodobieństwo.
publiczne statyczne unigramy FixUnigramCandidateSampler.Options (unigramy List<Float>)
Parametry
| unigramy | Lista zliczeń lub prawdopodobieństw unigramów, po jednym na każdy identyfikator w kolejności sekwencyjnej. Do tej operacji należy przekazać dokładnie jeden z plików vocab_file i unigramów. |
|---|
publiczny statyczny NaprawionoUnigramCandidateSampler.Options vocabFile (String vocabFile)
Parametry
| plik vocab | Każda prawidłowa linia w tym pliku (który powinien mieć format podobny do CSV) odpowiada prawidłowemu identyfikatorowi słowa. Identyfikatory są uporządkowane sekwencyjnie, zaczynając od num_reserved_ids. Oczekuje się, że ostatni wpis w każdym wierszu będzie wartością odpowiadającą liczbie lub prawdopodobieństwu względnemu. Do tej operacji należy przekazać dokładnie jeden z plików vocab_file i unigramów. |
|---|