টেনসরফ্লো :: অপস:: FixedUnigram CandidateSampler

#include <candidate_sampling_ops.h>

একটি শেখা ইউনিগ্রাম বিতরণের সাথে প্রার্থীর নমুনার জন্য লেবেল তৈরি করে।

সারাংশ

একটি ইউনিগ্রাম স্যাম্পলার একটি ফাইল থেকে পড়া একটি নির্দিষ্ট ইউনিগ্রাম ডিস্ট্রিবিউশন ব্যবহার করতে পারে বা ফ্লাইতে ডেটা থেকে বিতরণ তৈরি করার পরিবর্তে একটি ইন-মেমরি অ্যারে হিসাবে পাস করতে পারে। ওজনে একটি বিকৃতি শক্তি প্রয়োগ করে বিতরণকে তির্যক করার একটি বিকল্পও রয়েছে।

শব্দভান্ডার ফাইলটি CSV-এর মতো বিন্যাসে হওয়া উচিত, শেষ ক্ষেত্রটি শব্দের সাথে সম্পর্কিত ওজন।

প্রতিটি ব্যাচের জন্য, এই অপশনটি নমুনাযুক্ত প্রার্থী লেবেলের একক সেট বেছে নেয়।

প্রতি-ব্যাচ প্রার্থীদের নমুনা নেওয়ার সুবিধাগুলি হল সরলতা এবং দক্ষ ঘন ম্যাট্রিক্স গুণনের সম্ভাবনা। অসুবিধা হল যে নমুনা প্রার্থীদের অবশ্যই প্রসঙ্গ এবং সত্যিকারের লেবেল থেকে স্বাধীনভাবে বেছে নিতে হবে।

যুক্তি:

  • স্কোপ: একটি স্কোপ অবজেক্ট
  • true_classes: একটি ব্যাচ_সাইজ * num_true ম্যাট্রিক্স, যার প্রতিটি সারিতে সংশ্লিষ্ট মূল লেবেলে num_true টার্গেট_ক্লাসের আইডি রয়েছে।
  • num_true: প্রসঙ্গ প্রতি সত্য লেবেলের সংখ্যা।
  • num_sampled: এলোমেলোভাবে নমুনা দেওয়ার জন্য প্রার্থীদের সংখ্যা।
  • অনন্য: অনন্য সত্য হলে, আমরা প্রত্যাখ্যান সহ নমুনা করি, যাতে একটি ব্যাচের সমস্ত নমুনা প্রার্থী অনন্য হয়। প্রত্যাখ্যান পরবর্তী নমুনা সম্ভাব্যতা অনুমান করার জন্য এটি কিছু আনুমানিক প্রয়োজন।
  • range_max: নমুনাকারী ব্যবধান থেকে পূর্ণসংখ্যার নমুনা করবে [0, range_max)।

ঐচ্ছিক বৈশিষ্ট্য (দেখুন Attrs ):

  • vocab_file: এই ফাইলের প্রতিটি বৈধ লাইন (যার একটি CSV-এর মতো বিন্যাস থাকা উচিত) একটি বৈধ শব্দ আইডির সাথে মিলে যায়। আইডিগুলি ক্রমানুসারে, num_reserved_ids থেকে শুরু করে। প্রতিটি লাইনের শেষ এন্ট্রিটি গণনা বা আপেক্ষিক সম্ভাব্যতার সাথে সম্পর্কিত একটি মান হবে বলে আশা করা হচ্ছে। vocab_file এবং unigrams এর মধ্যে একটি ঠিক এই অপেশানে পাস করতে হবে।
  • বিকৃতি: বিকৃতিটি ইউনিগ্রাম সম্ভাব্যতা বন্টনকে তির্যক করতে ব্যবহৃত হয়। অভ্যন্তরীণ ইউনিগ্রাম বিতরণে যোগ করার আগে প্রতিটি ওজন প্রথমে বিকৃতির শক্তিতে উত্থাপিত হয়। ফলস্বরূপ, বিকৃতি = 1.0 নিয়মিত ইউনিগ্রাম স্যাম্পলিং দেয় (ভোকাব ফাইল দ্বারা সংজ্ঞায়িত), এবং বিকৃতি = 0.0 একটি অভিন্ন বন্টন দেয়।
  • num_reserved_ids: ঐচ্ছিকভাবে কিছু সংরক্ষিত আইডি ব্যবহারকারীরা [0, ..., num_reserved_ids) পরিসরে যোগ করতে পারেন। একটি ব্যবহারের ক্ষেত্রে একটি বিশেষ অজানা শব্দ টোকেন আইডি 0 হিসাবে ব্যবহৃত হয়। এই আইডিগুলির নমুনা সম্ভাবনা 0 হবে।
  • num_shards: সমান্তরালতার মাধ্যমে সমগ্র গণনার গতি বাড়ানোর জন্য একটি নমুনাকারীকে মূল পরিসরের একটি উপসেট থেকে নমুনা নিতে ব্যবহার করা যেতে পারে। এই প্যারামিটারটি (একসাথে 'শার্ড'-এর সাথে) সামগ্রিক গণনায় ব্যবহৃত পার্টিশনের সংখ্যা নির্দেশ করে।
  • শার্ড: সমান্তরালতার মাধ্যমে পুরো গণনার গতি বাড়ানোর জন্য একটি নমুনাকারী মূল পরিসরের একটি উপসেট থেকে নমুনা নিতে ব্যবহার করা যেতে পারে। এই প্যারামিটার (একসাথে 'সংখ্যা_শার্ড') একটি স্যাম্পলার অপের নির্দিষ্ট পার্টিশন নম্বর নির্দেশ করে, যখন পার্টিশন ব্যবহার করা হচ্ছে।
  • ইউনিগ্রাম: ইউনিগ্রাম গণনা বা সম্ভাব্যতার একটি তালিকা, প্রতি আইডি ক্রমানুসারে একটি। vocab_file এবং unigrams এর মধ্যে একটি ঠিক এই অপেশানে পাস করা উচিত।
  • বীজ: যদি বীজ বা বীজ2 অ-শূন্য সেট করা হয়, তাহলে প্রদত্ত বীজ দ্বারা এলোমেলো সংখ্যা জেনারেটর বীজ হয়। অন্যথায়, এটি একটি এলোমেলো বীজ দ্বারা বীজ হয়।
  • বীজ 2: বীজ সংঘর্ষ এড়াতে একটি দ্বিতীয় বীজ।

রিটার্ন:

  • Output স্যাম্পলড_ক্যান্ডিডেটস: দৈর্ঘ্যের একটি ভেক্টর num_sampled, যেখানে প্রতিটি উপাদান হল একজন নমুনা প্রার্থীর ID।
  • Output true_expected_count: একটি ব্যাচ_সাইজ * num_true ম্যাট্রিক্স, নমুনা নেওয়া প্রার্থীদের একটি ব্যাচে প্রতিটি প্রার্থী কতবার ঘটতে পারে তা প্রতিনিধিত্ব করে। যদি অনন্য = সত্য, তাহলে এটি একটি সম্ভাবনা।
  • Output স্যাম্পলড_প্রত্যাশিত_গণনা: দৈর্ঘ্যের একটি ভেক্টর num_sampled, প্রতিটি নমুনা প্রার্থীর জন্য নমুনা নেওয়া প্রার্থীদের একটি ব্যাচে কতবার প্রার্থী হওয়ার প্রত্যাশিত সংখ্যা প্রতিনিধিত্ব করে। যদি অনন্য = সত্য, তাহলে এটি একটি সম্ভাবনা।

কনস্ট্রাক্টর এবং ডেস্ট্রাক্টর

FixedUnigramCandidateSampler (const :: tensorflow::Scope & scope, :: tensorflow::Input true_classes, int64 num_true, int64 num_sampled, bool unique, int64 range_max)
FixedUnigramCandidateSampler (const :: tensorflow::Scope & scope, :: tensorflow::Input true_classes, int64 num_true, int64 num_sampled, bool unique, int64 range_max, const FixedUnigramCandidateSampler::Attrs & attrs)

পাবলিক বৈশিষ্ট্য

operation
sampled_candidates
sampled_expected_count
true_expected_count

পাবলিক স্ট্যাটিক ফাংশন

Distortion (float x)
NumReservedIds (int64 x)
NumShards (int64 x)
Seed (int64 x)
Seed2 (int64 x)
Shard (int64 x)
Unigrams (const gtl::ArraySlice< float > & x)
VocabFile (StringPiece x)

কাঠামো

tensorflow:: ops:: FixedUnigramCandidateSampler:: Attrs

FixedUnigramCandidateSampler- এর জন্য ঐচ্ছিক অ্যাট্রিবিউট সেটার।

পাবলিক বৈশিষ্ট্য

অপারেশন

Operation operation

নমুনা_প্রার্থী

::tensorflow::Output sampled_candidates

নমুনা_প্রত্যাশিত_গণনা

::tensorflow::Output sampled_expected_count

সত্য_প্রত্যাশিত_গণনা

::tensorflow::Output true_expected_count

পাবলিক ফাংশন

FixedUnigram CandidateSampler

 FixedUnigramCandidateSampler(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input true_classes,
  int64 num_true,
  int64 num_sampled,
  bool unique,
  int64 range_max
)

FixedUnigram CandidateSampler

 FixedUnigramCandidateSampler(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input true_classes,
  int64 num_true,
  int64 num_sampled,
  bool unique,
  int64 range_max,
  const FixedUnigramCandidateSampler::Attrs & attrs
)

পাবলিক স্ট্যাটিক ফাংশন

বিকৃতি

Attrs Distortion(
  float x
)

NumReservedIds

Attrs NumReservedIds(
  int64 x
)

NumShards

Attrs NumShards(
  int64 x
)

বীজ

Attrs Seed(
  int64 x
)

বীজ ২

Attrs Seed2(
  int64 x
)

শার্ড

Attrs Shard(
  int64 x
)

ইউনিগ্রাম

Attrs Unigrams(
  const gtl::ArraySlice< float > & x
)

VocabFile

Attrs VocabFile(
  StringPiece x
)