সেন্সরফ্লো :: অপস :: ফিক্সডউইনিগ্রাম ক্যামডিডিটস্যাম্পলার
#include <candidate_sampling_ops.h>
একটি শিখানো ইউনিগ্রাম বিতরণ দিয়ে প্রার্থীর নমুনার জন্য লেবেল তৈরি করে।
সারসংক্ষেপ
কোনও ইউনিগ্রাম স্যাম্পলার একটি ফ্লাই থেকে ডেটা থেকে বিতরণ বাড়ানোর পরিবর্তে কোনও ফাইল থেকে পঠিত একটি নির্দিষ্ট ইউনিগ্রাম বিতরণ ব্যবহার করতে পারে বা একটি মেমোরি অ্যারে হিসাবে পাস করতে পারে। ওজনে বিকৃতি শক্তি প্রয়োগ করে বন্টনকে স্কু করার একটি বিকল্পও রয়েছে।
শব্দভাণ্ডার ফাইলটি সিএসভি-জাতীয় বিন্যাসে হওয়া উচিত, সর্বশেষ ক্ষেত্রটি শব্দের সাথে যুক্ত weight
প্রতিটি ব্যাচের জন্য, এই বিকল্পটি নমুনাযুক্ত প্রার্থী লেবেলের একক সেট বেছে নেয়।
প্রতি ব্যাচে নমুনা প্রার্থীদের সুবিধা হ'ল সরলতা এবং দক্ষ ঘন ম্যাট্রিক্স গুণনের সম্ভাবনা। অসুবিধাটি হ'ল নমুনাযুক্ত প্রার্থীদের অবশ্যই প্রসঙ্গ এবং সত্য লেবেলের স্বাধীনভাবে নির্বাচন করতে হবে।
যুক্তি:
- সুযোগ: একটি স্কোপ অবজেক্ট
- ট্রু_চ্ল্যাস: একটি ব্যাচ_সাইজ * নাম_ট্রু ম্যাট্রিক্স, যাতে প্রতিটি সারিতে সংশ্লিষ্ট মূল লেবেলে num_true টার্গেট_ক্লাসগুলির আইডি থাকে।
- num_true: প্রসঙ্গ অনুসারে সত্য লেবেলের সংখ্যা।
- num_sampled: এলোমেলোভাবে নমুনা প্রার্থীদের সংখ্যা।
- অনন্য: যদি অনন্য সত্য হয় তবে আমরা প্রত্যাখ্যান সহ নমুনা করি, যাতে ব্যাচের সমস্ত নমুনা প্রার্থীরা অনন্য are প্রত্যাখ্যান-পরবর্তী নমুনা সম্ভাবনার অনুমান করতে এর জন্য কিছুটা আনুমানিক প্রয়োজন ima
- রেঞ্জ_ম্যাক্স: স্যাম্পলারটি অন্তর [0, রেঞ্জ_ম্যাক্স) থেকে পূর্ণসংখ্যার নমুনা দেবে।
- ভোকাব_ফাইলে: এই ফাইলের প্রতিটি বৈধ লাইন (যা একটি সিএসভি-জাতীয় ফর্ম্যাট থাকা উচিত) একটি বৈধ শব্দের আইডির সাথে সম্পর্কিত। আইডিগুলি num_reided_ids থেকে শুরু করে ক্রমানুসারে থাকে। প্রতিটি লাইনে শেষ এন্ট্রি গণনা বা আপেক্ষিক সম্ভাবনার সাথে সম্পর্কিত একটি মান হিসাবে প্রত্যাশিত। হুবহু একটি ভোকাব_ফাইল এবং ইউনিগ্রামের এই বিকল্পটিতে পাস করা দরকার।
- বিকৃতি: বিকৃতিটি ইউনিগ্রাম সম্ভাব্যতা বন্টনকে স্কিউ করতে ব্যবহৃত হয়। অভ্যন্তরীণ ইউনিগ্রাম বিতরণ যোগ করার আগে প্রতিটি ওজন প্রথমে বিকৃতির শক্তিতে উত্থাপিত হয়। ফলস্বরূপ, বিকৃতি = 1.0 নিয়মিত ইউনিগ্রাম নমুনা দেয় (ভোকাব ফাইল দ্বারা সংজ্ঞায়িত), এবং বিকৃতি = 0.0 একটি অভিন্ন বিতরণ দেয়।
- num_reided_ids: reservedচ্ছিকভাবে কিছু সংরক্ষিত আইডি ব্যবহারকারীর দ্বারা [0, ..., num_reided_ids) পরিসীমাতে যুক্ত করা যেতে পারে। একটি ব্যবহারের ক্ষেত্রে হ'ল একটি বিশেষ অজানা শব্দ টোকেন আইডি 0 হিসাবে ব্যবহৃত হয় These এই আইডিগুলিতে 0 এর নমুনা সম্ভাবনা থাকে।
- num_shards: সমান্তরালতার মাধ্যমে পুরো গতিবিধির গতি বাড়ানোর জন্য একটি নমুনা মূল পরিসরের একটি উপসেট থেকে নমুনা ব্যবহার করতে ব্যবহৃত হতে পারে। এই প্যারামিটার (একসাথে 'শারদ') সামগ্রিক গণনায় ব্যবহৃত পার্টিশনের সংখ্যা নির্দেশ করে।
- শারদ: সমান্তরালতার মাধ্যমে পুরো গতিতে গতি বাড়ানোর জন্য একটি নমুনা মূল পরিসরের একটি উপসেট থেকে নমুনা ব্যবহার করতে ব্যবহৃত হতে পারে। এই প্যারামিটার (একসাথে 'num_shards') পার্টিশন ব্যবহার করার সময় একটি নমুনা অপের নির্দিষ্ট পার্টিশন নম্বর নির্দেশ করে।
- ইউনিগ্রামগুলি: ধারাক্রমিক ক্রমে আইডি প্রতি এক করে ইউনিট গণনা বা সম্ভাবনার তালিকা। হুবহু ভোকাব_ফাইল এবং ইউনিগ্রামগুলির মধ্যে একটি এই বিকল্পটিতে পাস করা উচিত।
- বীজ: যদি বীজ বা বীজ 2 হয় শূন্য থেকে নির্ধারণ করা হয়, এলোমেলো সংখ্যা জেনারেটর প্রদত্ত বীজ দ্বারা বীজযুক্ত হয়। অন্যথায়, এটি এলোমেলো বীজ দ্বারা বপন করা হয়।
- বীজ 2: বীজের সংঘর্ষ এড়াতে দ্বিতীয় বীজ।
রিটার্নস:
-
Output
স্যাম্পলেড_স্যান্ডিডেটস: দৈর্ঘ্যের নাম_ নমুনার একটি ভেক্টর, যাতে প্রতিটি উপাদান একটি নমুনাপ্রাপ্ত প্রার্থীর আইডি। -
Output
true_expected_count: একটি ব্যাচ_সাইজ * নাম_ট্রু ম্যাট্রিক্স, নমুনাপ্রাপ্ত প্রার্থীদের ব্যাচে প্রতিটি প্রার্থীর প্রত্যাশার সংখ্যার প্রতিনিধিত্ব করে। যদি অনন্য = সত্য হয়, তবে এটি একটি সম্ভাবনা। -
Output
নমুনা_স্পর্শী_কাউন্ট: দৈর্ঘ্য নম_স্যাম্পল্ডের একটি ভেক্টর, নমুনাপ্রাপ্ত প্রার্থীদের একটি ব্যাচে প্রার্থীর প্রত্যাশার সংখ্যার প্রতিনিধিত্বকারী প্রতিটি নমুনা প্রার্থী। যদি অনন্য = সত্য হয়, তবে এটি একটি সম্ভাবনা।
নির্মাণকারী এবং ধ্বংসকারী | |
---|---|
FixedUnigramCandidateSampler (const :: tensorflow::Scope & scope, :: tensorflow::Input true_classes, int64 num_true, int64 num_sampled, bool unique, int64 range_max) | |
FixedUnigramCandidateSampler (const :: tensorflow::Scope & scope, :: tensorflow::Input true_classes, int64 num_true, int64 num_sampled, bool unique, int64 range_max, const FixedUnigramCandidateSampler::Attrs & attrs) |
জনসাধারণের গুণাবলী | |
---|---|
operation | |
sampled_candidates | |
sampled_expected_count | |
true_expected_count |
পাবলিক স্ট্যাটিক ফাংশন | |
---|---|
Distortion (float x) | |
NumReservedIds (int64 x) | |
NumShards (int64 x) | |
Seed (int64 x) | |
Seed2 (int64 x) | |
Shard (int64 x) | |
Unigrams (const gtl::ArraySlice< float > & x) | |
VocabFile (StringPiece x) |
স্ট্রাক্টস | |
---|---|
টেনসরফ্লো :: অপ্স :: ফিক্সডউইনগ্রাম ক্যামডিডিটস্যাম্পলার :: অ্যাটর্স | ফিক্সড ইউনিকগ্রামক্যান্ডিডেটস্যাম্পলারের জন্য .চ্ছিক অ্যাট্রিবিউট সেটটার । |
জনসাধারণের গুণাবলী
অপারেশন
Operation operation
sampled_candidates
::tensorflow::Output sampled_candidates
নমুনা_স্পর্শী_কাউন্ট
::tensorflow::Output sampled_expected_count
true_expected_count
::tensorflow::Output true_expected_count
পাবলিক ফাংশন
ফিক্সডউইনিগ্রাম ক্যামডিডিটস্যাম্পলার
FixedUnigramCandidateSampler( const ::tensorflow::Scope & scope, ::tensorflow::Input true_classes, int64 num_true, int64 num_sampled, bool unique, int64 range_max )
ফিক্সডউইনিগ্রাম ক্যামডিডিটস্যাম্পলার
FixedUnigramCandidateSampler( const ::tensorflow::Scope & scope, ::tensorflow::Input true_classes, int64 num_true, int64 num_sampled, bool unique, int64 range_max, const FixedUnigramCandidateSampler::Attrs & attrs )
পাবলিক স্ট্যাটিক ফাংশন
বিকৃতি
Attrs Distortion( float x )
নম্বরের রিজার্ভড আইডিএস
Attrs NumReservedIds( int64 x )
নামশার্ডস
Attrs NumShards( int64 x )
বীজ
Attrs Seed( int64 x )
বীজ 2
Attrs Seed2( int64 x )
তীক্ষ্ণ
Attrs Shard( int64 x )
ইউনিগ্রামে
Attrs Unigrams( const gtl::ArraySlice< float > & x )
ভোক্যাবফিল
Attrs VocabFile( StringPiece x )