সেন্সরফ্লো :: অপস :: ফিক্সডউইনিগ্রাম ক্যামডিডিটস্যাম্পলার

#include <candidate_sampling_ops.h>

একটি শিখানো ইউনিগ্রাম বিতরণ দিয়ে প্রার্থীর নমুনার জন্য লেবেল তৈরি করে।

সারসংক্ষেপ

কোনও ইউনিগ্রাম স্যাম্পলার একটি ফ্লাই থেকে ডেটা থেকে বিতরণ বাড়ানোর পরিবর্তে কোনও ফাইল থেকে পঠিত একটি নির্দিষ্ট ইউনিগ্রাম বিতরণ ব্যবহার করতে পারে বা একটি মেমোরি অ্যারে হিসাবে পাস করতে পারে। ওজনে বিকৃতি শক্তি প্রয়োগ করে বন্টনকে স্কু করার একটি বিকল্পও রয়েছে।

শব্দভাণ্ডার ফাইলটি সিএসভি-জাতীয় বিন্যাসে হওয়া উচিত, সর্বশেষ ক্ষেত্রটি শব্দের সাথে যুক্ত weight

প্রতিটি ব্যাচের জন্য, এই বিকল্পটি নমুনাযুক্ত প্রার্থী লেবেলের একক সেট বেছে নেয়।

প্রতি ব্যাচে নমুনা প্রার্থীদের সুবিধা হ'ল সরলতা এবং দক্ষ ঘন ম্যাট্রিক্স গুণনের সম্ভাবনা। অসুবিধাটি হ'ল নমুনাযুক্ত প্রার্থীদের অবশ্যই প্রসঙ্গ এবং সত্য লেবেলের স্বাধীনভাবে নির্বাচন করতে হবে।

যুক্তি:

  • সুযোগ: একটি স্কোপ অবজেক্ট
  • ট্রু_চ্ল্যাস: একটি ব্যাচ_সাইজ * নাম_ট্রু ম্যাট্রিক্স, যাতে প্রতিটি সারিতে সংশ্লিষ্ট মূল লেবেলে num_true টার্গেট_ক্লাসগুলির আইডি থাকে।
  • num_true: প্রসঙ্গ অনুসারে সত্য লেবেলের সংখ্যা।
  • num_sampled: এলোমেলোভাবে নমুনা প্রার্থীদের সংখ্যা।
  • অনন্য: যদি অনন্য সত্য হয় তবে আমরা প্রত্যাখ্যান সহ নমুনা করি, যাতে ব্যাচের সমস্ত নমুনা প্রার্থীরা অনন্য are প্রত্যাখ্যান-পরবর্তী নমুনা সম্ভাবনার অনুমান করতে এর জন্য কিছুটা আনুমানিক প্রয়োজন ima
  • রেঞ্জ_ম্যাক্স: স্যাম্পলারটি অন্তর [0, রেঞ্জ_ম্যাক্স) থেকে পূর্ণসংখ্যার নমুনা দেবে।

Attrs বৈশিষ্ট্য ( Attrs ):

  • ভোকাব_ফাইলে: এই ফাইলের প্রতিটি বৈধ লাইন (যা একটি সিএসভি-জাতীয় ফর্ম্যাট থাকা উচিত) একটি বৈধ শব্দের আইডির সাথে সম্পর্কিত। আইডিগুলি num_reided_ids থেকে শুরু করে ক্রমানুসারে থাকে। প্রতিটি লাইনে শেষ এন্ট্রি গণনা বা আপেক্ষিক সম্ভাবনার সাথে সম্পর্কিত একটি মান হিসাবে প্রত্যাশিত। হুবহু একটি ভোকাব_ফাইল এবং ইউনিগ্রামের এই বিকল্পটিতে যেতে হবে।
  • বিকৃতি: বিকৃতিটি ইউনিগ্রাম সম্ভাব্যতা বন্টনকে স্কিউ করতে ব্যবহৃত হয়। অভ্যন্তরীণ ইউনিগ্রাম বিতরণ যোগ করার আগে প্রতিটি ওজন প্রথমে বিকৃতির শক্তিতে উত্থাপিত হয়। ফলস্বরূপ, বিকৃতি = 1.0 নিয়মিত ইউনিগ্রাম নমুনা দেয় (ভোকাব ফাইল দ্বারা সংজ্ঞায়িত), এবং বিকৃতি = 0.0 একটি অভিন্ন বিতরণ দেয়।
  • num_reided_ids: reservedচ্ছিকভাবে কিছু সংরক্ষিত আইডি ব্যবহারকারীর দ্বারা [0, ..., num_reided_ids) পরিসীমাতে যুক্ত করা যেতে পারে। একটি ব্যবহারের ক্ষেত্রে হ'ল একটি বিশেষ অজানা শব্দ টোকেন আইডি 0 হিসাবে ব্যবহৃত হয় These এই আইডিগুলিতে 0 এর নমুনা সম্ভাবনা থাকে।
  • num_shards: সমান্তরালতার মাধ্যমে পুরো গতিতে গতি বাড়ানোর জন্য একটি নমুনা মূল পরিসরের একটি উপসেট থেকে নমুনা ব্যবহার করতে ব্যবহৃত হতে পারে। এই প্যারামিটার (একসাথে 'শারদ') সামগ্রিক গণনায় ব্যবহৃত পার্টিশনের সংখ্যা নির্দেশ করে।
  • শারদ: সমান্তরালতার মাধ্যমে পুরো গতিতে গতি বাড়ানোর জন্য একটি নমুনা মূল পরিসরের একটি উপসেট থেকে নমুনা ব্যবহার করতে ব্যবহৃত হতে পারে। এই প্যারামিটার (একসাথে 'num_shards') পার্টিশন ব্যবহার করার সময় একটি নমুনা অপের নির্দিষ্ট পার্টিশন নম্বর নির্দেশ করে।
  • ইউনিগ্রামগুলি: ধারাক্রমিক ক্রমে আইডি প্রতি এক করে ইউনিট গণনা বা সম্ভাবনার তালিকা। হুবহু ভোকাব_ফাইল এবং ইউনিগ্রামগুলির মধ্যে একটি এই বিকল্পটিতে পাস করা উচিত।
  • বীজ: যদি বীজ বা বীজ 2 হয় শূন্য থেকে নির্ধারণ করা হয়, এলোমেলো সংখ্যা জেনারেটর প্রদত্ত বীজ দ্বারা বীজযুক্ত হয়। অন্যথায়, এটি এলোমেলো বীজ দ্বারা বপন করা হয়।
  • বীজ 2: বীজের সংঘর্ষ এড়াতে দ্বিতীয় বীজ।

রিটার্নস:

  • Output স্যাম্পলেড_স্যান্ডিডেটস: দৈর্ঘ্যের নাম_ নমুনার একটি ভেক্টর, যাতে প্রতিটি উপাদান একটি নমুনাপ্রাপ্ত প্রার্থীর আইডি।
  • Output true_expected_count: একটি ব্যাচ_সাইজ * নাম_ট্রু ম্যাট্রিক্স, প্রতিটি পরীক্ষার্থীর নমুনাপ্রাপ্ত প্রার্থীদের একটি ব্যাচে প্রত্যাশিত সময়ের সংখ্যা প্রতিনিধিত্ব করে। যদি অনন্য = সত্য হয়, তবে এটি একটি সম্ভাবনা।
  • Output নমুনা_স্পর্শী_কাউন্ট: দৈর্ঘ্য নম_স্যাম্পল্ডের একটি ভেক্টর, নমুনাপ্রাপ্ত প্রার্থীদের একটি ব্যাচে প্রার্থীর প্রত্যাশার সংখ্যার প্রতিনিধিত্বকারী প্রতিটি নমুনা প্রার্থী। যদি অনন্য = সত্য হয়, তবে এটি একটি সম্ভাবনা।

নির্মাণকারী এবং ধ্বংসকারী

FixedUnigramCandidateSampler (const :: tensorflow::Scope & scope, :: tensorflow::Input true_classes, int64 num_true, int64 num_sampled, bool unique, int64 range_max)
FixedUnigramCandidateSampler (const :: tensorflow::Scope & scope, :: tensorflow::Input true_classes, int64 num_true, int64 num_sampled, bool unique, int64 range_max, const FixedUnigramCandidateSampler::Attrs & attrs)

জনসাধারণের গুণাবলী

operation
sampled_candidates
sampled_expected_count
true_expected_count

পাবলিক স্ট্যাটিক ফাংশন

Distortion (float x)
NumReservedIds (int64 x)
NumShards (int64 x)
Seed (int64 x)
Seed2 (int64 x)
Shard (int64 x)
Unigrams (const gtl::ArraySlice< float > & x)
VocabFile (StringPiece x)

স্ট্রাক্টস

টেনসরফ্লো :: অপ্স :: ফিক্সডউইনগ্রাম ক্যামডিডিটস্যাম্পলার :: অ্যাটার্স

ফিক্সডউইনিগ্রামসিডিডিটস্যাম্পলারের জন্য .চ্ছিক অ্যাট্রিবিউট সেটটার

জনসাধারণের গুণাবলী

অপারেশন

Operation operation

sampled_candidates

::tensorflow::Output sampled_candidates

নমুনা_স্পর্শিত_কাউন্ট

::tensorflow::Output sampled_expected_count

true_expected_count

::tensorflow::Output true_expected_count

পাবলিক ফাংশন

ফিক্সডউইনিগ্রাম ক্যামডিডিটস্যাম্পলার

 FixedUnigramCandidateSampler(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input true_classes,
  int64 num_true,
  int64 num_sampled,
  bool unique,
  int64 range_max
)

ফিক্সডউইনিগ্রাম ক্যামডিডিটস্যাম্পলার

 FixedUnigramCandidateSampler(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input true_classes,
  int64 num_true,
  int64 num_sampled,
  bool unique,
  int64 range_max,
  const FixedUnigramCandidateSampler::Attrs & attrs
)

পাবলিক স্ট্যাটিক ফাংশন

বিকৃতি

Attrs Distortion(
  float x
)

নম্বরের রিজার্ভড আইডিএস

Attrs NumReservedIds(
  int64 x
)

নামশার্ডস

0pha4b1be0

বীজ

Attrs Seed(
  int64 x
)

বীজ 2

Attrs Seed2(
  int64 x
)

তীক্ষ্ণ

Attrs Shard(
  int64 x
)

ইউনিগ্রামে

Attrs Unigrams(
  const gtl::ArraySlice< float > & x
)

ভোক্যাবফিল

Attrs VocabFile(
  StringPiece x
)