FixedUnigramCandidateSampler

পাবলিক ফাইনাল ক্লাস FixedUnigram CandidateSampler

একটি শেখা ইউনিগ্রাম বিতরণের সাথে প্রার্থীর নমুনার জন্য লেবেল তৈরি করে।

একটি ইউনিগ্রাম স্যাম্পলার একটি ফাইল থেকে পড়া একটি নির্দিষ্ট ইউনিগ্রাম ডিস্ট্রিবিউশন ব্যবহার করতে পারে বা ফ্লাইতে ডেটা থেকে বিতরণ তৈরি করার পরিবর্তে একটি ইন-মেমরি অ্যারে হিসাবে পাস করতে পারে। ওজনে একটি বিকৃতি শক্তি প্রয়োগ করে বিতরণকে তির্যক করার একটি বিকল্পও রয়েছে।

শব্দভান্ডার ফাইলটি CSV-এর মতো বিন্যাসে হওয়া উচিত, শেষ ক্ষেত্রটি শব্দের সাথে সম্পর্কিত ওজন।

প্রতিটি ব্যাচের জন্য, এই অপশনটি নমুনাযুক্ত প্রার্থী লেবেলের একক সেট বেছে নেয়।

প্রতি-ব্যাচ প্রার্থীদের নমুনা নেওয়ার সুবিধাগুলি হল সরলতা এবং দক্ষ ঘন ম্যাট্রিক্স গুণনের সম্ভাবনা। অসুবিধা হল যে নমুনা প্রার্থীদের অবশ্যই প্রসঙ্গ এবং সত্যিকারের লেবেল থেকে স্বাধীনভাবে বেছে নিতে হবে।

নেস্টেড ক্লাস

ক্লাস FixedUnigramCandidateSampler.Options FixedUnigramCandidateSampler এর জন্য ঐচ্ছিক বৈশিষ্ট্য

ধ্রুবক

স্ট্রিং OP_NAME এই অপের নাম, টেনসরফ্লো কোর ইঞ্জিন দ্বারা পরিচিত

পাবলিক পদ্ধতি

স্ট্যাটিক ফিক্সড ইউনিগ্রাম ক্যান্ডিডেট স্যাম্পলার
তৈরি করুন ( স্কোপ স্কোপ, অপারেন্ড < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean unique, Long rangeMax, Options... options)
একটি নতুন FixedUnigramCandidateSampler অপারেশন মোড়ানো একটি ক্লাস তৈরি করার কারখানা পদ্ধতি।
স্ট্যাটিক FixedUnigramCandidateSampler.Options
বিকৃতি (ফ্লোট বিকৃতি)
স্ট্যাটিক FixedUnigramCandidateSampler.Options
numReservedIds (লং numReservedIds)
স্ট্যাটিক FixedUnigramCandidateSampler.Options
numShards (লং numShards)
আউটপুট < TInt64 >
নমুনা প্রার্থী ()
দৈর্ঘ্য num_sampled একটি ভেক্টর, যার প্রতিটি উপাদান একটি নমুনা প্রার্থীর ID।
আউটপুট < TFloat32 >
নমুনা প্রত্যাশিত গণনা ()
দৈর্ঘ্যের একটি ভেক্টর num_sampled, প্রতিটি নমুনা প্রার্থীর জন্য নমুনা নেওয়া প্রার্থীদের একটি ব্যাচে প্রার্থী কতবার ঘটতে পারে তা প্রতিনিধিত্ব করে।
স্ট্যাটিক FixedUnigramCandidateSampler.Options
বীজ (দীর্ঘ বীজ)
স্ট্যাটিক FixedUnigramCandidateSampler.Options
বীজ 2 (লম্বা বীজ 2)
স্ট্যাটিক FixedUnigramCandidateSampler.Options
শার্ড (লম্বা শার্ড)
আউটপুট < TFloat32 >
trueExpectedCount ()
একটি ব্যাচ_সাইজ * num_true ম্যাট্রিক্স, নমুনা নেওয়া প্রার্থীদের একটি ব্যাচে প্রতিটি প্রার্থী কতবার ঘটবে বলে প্রত্যাশিত সংখ্যার প্রতিনিধিত্ব করে।
স্ট্যাটিক FixedUnigramCandidateSampler.Options
ইউনিগ্রাম (লিস্ট<ফ্লোট> ইউনিগ্রাম)
স্ট্যাটিক FixedUnigramCandidateSampler.Options
ভোকাবফাইল (স্ট্রিং ভোকাবফাইল)

উত্তরাধিকারসূত্রে প্রাপ্ত পদ্ধতি

ধ্রুবক

সর্বজনীন স্ট্যাটিক চূড়ান্ত স্ট্রিং OP_NAME

এই অপের নাম, টেনসরফ্লো কোর ইঞ্জিন দ্বারা পরিচিত

ধ্রুবক মান: "FixedUnigram CandidateSampler"

পাবলিক পদ্ধতি

পাবলিক স্ট্যাটিক ফিক্সড ইউনিগ্রাম ক্যান্ডিডেট স্যাম্পলার তৈরি করুন ( স্কোপ স্কোপ, অপারেন্ড < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean unique, Long rangeMax, Options... options)

একটি নতুন FixedUnigramCandidateSampler অপারেশন মোড়ানো একটি ক্লাস তৈরি করার কারখানা পদ্ধতি।

পরামিতি
সুযোগ বর্তমান সুযোগ
সত্যিকারের ক্লাস একটি ব্যাচ_সাইজ * num_true ম্যাট্রিক্স, যার প্রতিটি সারিতে সংশ্লিষ্ট আসল লেবেলে num_true target_class-এর আইডি রয়েছে।
numTrue প্রসঙ্গ প্রতি সত্য লেবেলের সংখ্যা।
numSampled এলোমেলোভাবে নমুনা প্রার্থীদের সংখ্যা.
অনন্য অনন্য সত্য হলে, আমরা প্রত্যাখ্যান সহ নমুনা করি, যাতে একটি ব্যাচের সমস্ত নমুনা প্রার্থী অনন্য হয়। প্রত্যাখ্যান পরবর্তী নমুনা সম্ভাব্যতা অনুমান করার জন্য এটি কিছু আনুমানিক প্রয়োজন।
rangeMax নমুনাকারী ব্যবধান থেকে পূর্ণসংখ্যার নমুনা করবে [0, range_max)।
বিকল্প ঐচ্ছিক বৈশিষ্ট্য মান বহন করে
রিটার্নস
  • FixedUnigramCandidateSampler এর একটি নতুন উদাহরণ

পাবলিক স্ট্যাটিক FixedUnigramCandidateSampler.Options বিকৃতি (ফ্লোট বিকৃতি)

পরামিতি
বিকৃতি ইউনিগ্রাম সম্ভাব্যতা বন্টন তির্যক করতে বিকৃতি ব্যবহার করা হয়। অভ্যন্তরীণ ইউনিগ্রাম বিতরণে যোগ করার আগে প্রতিটি ওজন প্রথমে বিকৃতির শক্তিতে উত্থাপিত হয়। ফলস্বরূপ, বিকৃতি = 1.0 নিয়মিত ইউনিগ্রাম স্যাম্পলিং দেয় (ভোকাব ফাইল দ্বারা সংজ্ঞায়িত), এবং বিকৃতি = 0.0 একটি অভিন্ন বন্টন দেয়।

পাবলিক স্ট্যাটিক FixedUnigramCandidateSampler.Options numReservedIds (লং numReservedIds)

পরামিতি
সংরক্ষিত আইডি ঐচ্ছিকভাবে কিছু সংরক্ষিত আইডি ব্যবহারকারীদের দ্বারা [0, ..., num_reserved_ids) পরিসরে যোগ করা যেতে পারে। একটি ব্যবহারের ক্ষেত্রে একটি বিশেষ অজানা শব্দ টোকেন আইডি 0 হিসাবে ব্যবহৃত হয়। এই আইডিগুলির নমুনা সম্ভাবনা 0 হবে।

পাবলিক স্ট্যাটিক FixedUnigramCandidateSampler.Options numShards (লং numShards)

পরামিতি
numShards সমান্তরালতার মাধ্যমে সমগ্র গণনার গতি বাড়ানোর জন্য একটি নমুনাকারীকে মূল পরিসরের একটি উপসেট থেকে নমুনা করতে ব্যবহার করা যেতে পারে। এই প্যারামিটারটি (একসাথে 'শার্ড'-এর সাথে) সামগ্রিক গণনায় ব্যবহৃত পার্টিশনের সংখ্যা নির্দেশ করে।

সর্বজনীন আউটপুট < TInt64 > নমুনা প্রার্থী ()

দৈর্ঘ্য num_sampled একটি ভেক্টর, যার প্রতিটি উপাদান একটি নমুনা প্রার্থীর ID।

সর্বজনীন আউটপুট < TFloat32 > sampledExpectedCount ()

দৈর্ঘ্যের একটি ভেক্টর num_sampled, প্রতিটি নমুনা প্রার্থীর জন্য নমুনা নেওয়া প্রার্থীদের একটি ব্যাচে প্রার্থী কতবার ঘটতে পারে তা প্রতিনিধিত্ব করে। যদি অনন্য = সত্য, তাহলে এটি একটি সম্ভাবনা।

পাবলিক স্ট্যাটিক FixedUnigramCandidateSampler.Options seed (লং বীজ)

পরামিতি
বীজ যদি বীজ বা বীজ2 অ-শূন্য হিসাবে সেট করা হয়, তাহলে প্রদত্ত বীজ দ্বারা এলোমেলো সংখ্যা জেনারেটর বীজ হয়। অন্যথায়, এটি একটি এলোমেলো বীজ দ্বারা বীজ হয়।

পাবলিক স্ট্যাটিক FixedUnigramCandidateSampler.Options seed2 (Long seed2)

পরামিতি
বীজ2 একটি দ্বিতীয় বীজ বীজ সংঘর্ষ এড়াতে.

পাবলিক স্ট্যাটিক FixedUnigramCandidateSampler.Options shard (লং শার্ড)

পরামিতি
শার্ড সমান্তরালতার মাধ্যমে সমগ্র গণনার গতি বাড়ানোর জন্য একটি নমুনাকারীকে মূল পরিসরের একটি উপসেট থেকে নমুনা করতে ব্যবহার করা যেতে পারে। এই প্যারামিটার (একসাথে 'সংখ্যা_শার্ড') একটি স্যাম্পলার অপের নির্দিষ্ট পার্টিশন নম্বর নির্দেশ করে, যখন পার্টিশন ব্যবহার করা হচ্ছে।

সর্বজনীন আউটপুট < TFloat32 > trueExpectedCount ()

একটি ব্যাচ_সাইজ * num_true ম্যাট্রিক্স, নমুনা নেওয়া প্রার্থীদের একটি ব্যাচে প্রতিটি প্রার্থী কতবার ঘটবে বলে প্রত্যাশিত সংখ্যার প্রতিনিধিত্ব করে। যদি অনন্য = সত্য, তাহলে এটি একটি সম্ভাবনা।

পাবলিক স্ট্যাটিক FixedUnigramCandidateSampler.Options unigrams (List<Float> unigrams)

পরামিতি
ইউনিগ্রাম ইউনিগ্রাম গণনা বা সম্ভাব্যতার একটি তালিকা, প্রতি আইডি ক্রমানুসারে একটি। vocab_file এবং unigrams এর মধ্যে একটি ঠিক এই অপেশানে পাস করা উচিত।

পাবলিক স্ট্যাটিক FixedUnigramCandidateSampler.Options vocabFile (স্ট্রিং vocabFile)

পরামিতি
ভোকাবফাইল এই ফাইলের প্রতিটি বৈধ লাইন (যার একটি CSV-এর মতো বিন্যাস থাকা উচিত) একটি বৈধ শব্দ ID-এর সাথে মিলে যায়৷ আইডিগুলি ক্রমানুসারে, num_reserved_ids থেকে শুরু করে। প্রতিটি লাইনের শেষ এন্ট্রিটি গণনা বা আপেক্ষিক সম্ভাব্যতার সাথে সম্পর্কিত একটি মান হবে বলে আশা করা হচ্ছে। vocab_file এবং unigrams এর মধ্যে একটি ঠিক এই অপেশানে পাস করতে হবে।