FixedUnigramCandidateSampler

パブリック最終クラスFixedUnigramCandidateSampler

学習されたユニグラム分布を使用して候補サンプリングのラベルを生成します。

ユニグラム サンプラーは、オンザフライでデータから分布を構築する代わりに、ファイルから読み取られた固定ユニグラム分布を使用するか、メモリ内配列として渡された固定ユニグラム分布を使用できます。重みに歪みパワーを適用して分布を歪めるオプションもあります。

語彙ファイルは CSV のような形式である必要があり、最後のフィールドは単語に関連付けられた重みです。

この操作は、バッチごとに、サンプリングされた候補ラベルの単一セットを選択します。

バッチごとに候補をサンプリングする利点は、単純さと効率的な密行列乗算の可能性です。欠点は、サンプリングされた候補がコンテキストや真のラベルとは独立して選択されなければならないことです。

ネストされたクラス

クラスFixedUnigramCandidateSampler.Options FixedUnigramCandidateSamplerのオプションの属性

定数

OP_NAME TensorFlow コア エンジンによって認識される、この演算の名前

パブリックメソッド

静的FixedUnigramCandidateSampler
create (スコープscope、オペランド<TInt64> trueClasses、Long numTrue、Long numSampled、Boolean unique、Long rangeMax、 Options...オプション)
新しいFixedUnigramCandidateSamplerオペレーションをラップするクラスを作成するファクトリメソッド。
静的FixedUnigramCandidateSampler.Options
歪み(フロート歪み)
静的FixedUnigramCandidateSampler.Options
numReservedIds (長い numReservedIds)
静的FixedUnigramCandidateSampler.Options
numShards (長い numShards)
出力< TInt64 >
サンプルされた候補者()
長さ num_sampled のベクトル。各要素はサンプリングされた候補の ID です。
出力< TFloat32 >
サンプル期待数()
サンプルされた候補ごとに、サンプルされた候補のバッチ内で候補が出現すると予想される回数を表す、長さ num_sampled のベクトル。
静的FixedUnigramCandidateSampler.Options
種子(長い種子)
静的FixedUnigramCandidateSampler.Options
シード2 (ロングシード2)
静的FixedUnigramCandidateSampler.Options
シャード(長いシャード)
出力< TFloat32 >
trueExpectedCount ()
サンプリングされた候補のバッチ内で各候補が出現すると予想される回数を表す、batch_size * num_true 行列。
静的FixedUnigramCandidateSampler.Options
ユニグラム(List<Float> ユニグラム)
静的FixedUnigramCandidateSampler.Options
vocabFile (文字列 vocabFile)

継承されたメソッド

定数

パブリック静的最終文字列OP_NAME

TensorFlow コア エンジンによって認識される、この演算の名前

定数値: "FixedUnigramCandidateSampler"

パブリックメソッド

public staticFixedUnigramCandidateSampler create (スコープscope、オペランド<TInt64> trueClasses、Long numTrue、Long numSampled、Boolean unique、Long rangeMax、 Options...オプション)

新しいFixedUnigramCandidateSamplerオペレーションをラップするクラスを作成するファクトリメソッド。

パラメーター
範囲現在のスコープ
trueクラスBatch_size * num_true 行列。各行には、対応する元のラベルの num_true target_classes の ID が含まれます。
numTrueコンテキストごとの真のラベルの数。
サンプル数ランダムにサンプリングする候補者の数。
個性的unique が true の場合、バッチ内のすべてのサンプリングされた候補が一意になるように、拒否を伴うサンプリングが行われます。これには、拒否後のサンプリング確率を推定するために何らかの近似が必要です。
範囲最大サンプラーは、間隔 [0, range_max) から整数をサンプリングします。
オプションオプションの属性値を持ちます
戻り値
  • FixedUnigramCandidateSampler の新しいインスタンス

public staticFixedUnigramCandidateSampler.Options歪み(Float 歪み)

パラメーター
ねじれ歪みはユニグラム確率分布を歪めるために使用されます。各重みは、内部ユニグラム分布に追加される前に、まず歪みの乗に引き上げられます。結果として、distortion = 1.0 は通常のユニグラム サンプリング (語彙ファイルで定義されたとおり) を提供し、distortion = 0.0 は均一な分布を提供します。

public staticFixedUnigramCandidateSampler.Options numReservedIds (Long numReservedIds)

パラメーター
numReservedIdsオプションで、ユーザーはいくつかの予約済み ID を [0, ..., num_reserved_ids) の範囲で追加できます。 1 つの使用例は、特別な未知の単語トークンが ID 0 として使用されることです。これらの ID のサンプリング確率は 0 になります。

public staticFixedUnigramCandidateSampler.Options numShards (Long numShards)

パラメーター
シャード数サンプラーを使用して、元の範囲のサブセットからサンプリングすることで、並列処理を通じて計算全体を高速化できます。このパラメーター (「shard」と合わせて) は、計算全体で使用されているパーティションの数を示します。

public Output <TInt64> sampledCandidates ()

長さ num_sampled のベクトル。各要素はサンプリングされた候補の ID です。

public Output <TFloat32> sampledExpectedCount ()

サンプルされた候補ごとに、サンプルされた候補のバッチ内で候補が出現すると予想される回数を表す、長さ num_sampled のベクトル。 unique=true の場合、これは確率です。

public staticFixedUnigramCandidateSampler.Optionsシード(ロングシード)

パラメーター
シードシードまたはシード 2 のいずれかが 0 以外に設定されている場合、乱数ジェネレータには指定されたシードがシードされます。それ以外の場合は、ランダム シードによってシードされます。

public staticFixedUnigramCandidateSampler.Optionsシード2 (ロングシード2)

パラメーター
シード2シードの衝突を避けるための 2 番目のシード。

public staticFixedUnigramCandidateSampler.Optionsシャード(長いシャード)

パラメーター
シャードサンプラーを使用して、元の範囲のサブセットからサンプリングすることで、並列処理を通じて計算全体を高速化できます。このパラメータは (「num_shards」と合わせて) パーティショニングが使用されている場合に、サンプラー オペレーションの特定のパーティション番号を示します。

public出力< TFloat32 > trueExpectedCount ()

サンプリングされた候補のバッチ内で各候補が出現すると予想される回数を表す、batch_size * num_true 行列。 unique=true の場合、これは確率です。

public staticFixedUnigramCandidateSampler.Optionsユニグラム(List<Float> ユニグラム)

パラメーター
ユニグラムユニグラム数または確率のリスト。ID ごとに 1 つずつ、順番に並べられます。 vocab_file と unigrams のうちの 1 つだけをこの操作に渡す必要があります。

public staticFixedUnigramCandidateSampler.Options vocabFile (String vocabFile)

パラメーター
語彙ファイルこのファイル (CSV のような形式である必要があります) 内の各有効な行は、有効な単語 ID に対応します。 ID は num_reserved_ids から始まる順番です。各行の最後のエントリは、カウントまたは相対確率に対応する値であることが期待されます。 vocab_file と unigrams の 1 つだけをこの操作に渡す必要があります。