برچسبهایی را برای نمونهگیری کاندید با توزیع یکگرم آموختهشده تولید میکند.
یک نمونهگر یونیگرام میتواند از توزیع ثابت یونیگرام که از یک فایل خوانده میشود یا بهعنوان آرایهای در حافظه ارسال میشود، به جای ایجاد توزیع از دادههای در حال پرواز، استفاده کند. همچنین گزینه ای برای کج کردن توزیع با اعمال قدرت اعوجاج به وزنه ها وجود دارد.
فایل واژگان باید در قالب CSV مانند باشد و آخرین فیلد وزن مرتبط با کلمه باشد.
برای هر دسته، این عملیات یک مجموعه واحد از برچسب های کاندید نمونه برداری شده را انتخاب می کند.
از مزایای کاندیدهای نمونه برداری در هر دسته، سادگی و امکان ضرب ماتریس متراکم کارآمد است. نقطه ضعف این است که نامزدهای نمونه باید مستقل از زمینه و برچسب های واقعی انتخاب شوند.
کلاس های تو در تو
کلاس | FixedUnigramCandidateSampler.Options | ویژگی های اختیاری برای FixedUnigramCandidateSampler |
ثابت ها
رشته | OP_NAME | نام این عملیات، همانطور که توسط موتور هسته TensorFlow شناخته می شود |
روش های عمومی
استاتیک FixedUnigramCandidateSampler | ایجاد ( scope scope، Operand < TINT64 > trueClasses، Long numTrue، Long numSampled، Boolean منحصر به فرد، Long rangeMax، Options... گزینه ها) روش کارخانه برای ایجاد کلاسی که یک عملیات جدید FixedUnigramCandidateSampler را بسته بندی می کند. |
ثابت FixedUnigramCandidateSampler.Options | اعوجاج (اعوجاج شناور) |
ثابت FixedUnigramCandidateSampler.Options | numReservedIds (Long numReservedIds) |
ثابت FixedUnigramCandidateSampler.Options | numShards (numShards طولانی) |
خروجی < TINT64 > | نمونه کاندیدها () بردار طول num_sampled، که در آن هر عنصر شناسه یک کاندید نمونه است. |
خروجی < TFloat32 > | sampledExpectedCount () بردار طول num_sampled، برای هر کاندید نمونه گیری شده نشان دهنده تعداد دفعاتی است که انتظار می رود کاندید در دسته ای از کاندیداهای نمونه گیری رخ دهد. |
ثابت FixedUnigramCandidateSampler.Options | دانه (دانه بلند) |
ثابت FixedUnigramCandidateSampler.Options | دانه 2 (دانه بلند 2) |
ثابت FixedUnigramCandidateSampler.Options | خرده (خرده بلند) |
خروجی < TFloat32 > | trueExpectedCount () یک ماتریس batch_size * num_true، نشان دهنده تعداد دفعاتی است که انتظار میرود هر نامزد در دستهای از نامزدهای نمونهگیری رخ دهد. |
ثابت FixedUnigramCandidateSampler.Options | unigrams (List<Float> unigrams) |
ثابت FixedUnigramCandidateSampler.Options | vocabFile (رشته vocabFile) |
روش های ارثی
ثابت ها
رشته نهایی ثابت عمومی OP_NAME
نام این عملیات، همانطور که توسط موتور هسته TensorFlow شناخته می شود
روش های عمومی
استاتیک عمومی FixedUnigramCandidateSampler ایجاد ( Scope scope، Operand < TInt64 > trueClasses، Long numTrue، Long numSampled، Boolean منحصر به فرد، Long rangeMax، Options... گزینه ها)
روش کارخانه برای ایجاد کلاسی که یک عملیات جدید FixedUnigramCandidateSampler را بسته بندی می کند.
مولفه های
محدوده | محدوده فعلی |
---|---|
trueClasses | یک ماتریس batch_size * num_true، که در آن هر ردیف شامل شناسه های num_true target_classes در برچسب اصلی مربوطه است. |
numTrue | تعداد برچسبهای واقعی در هر زمینه. |
numSampled | تعداد داوطلبان نمونه گیری تصادفی |
منحصر بفرد | اگر یکتا درست باشد، نمونه برداری را با رد انجام می دهیم، به طوری که همه نامزدهای نمونه در یک دسته منحصر به فرد هستند. این نیاز به تقریبی برای تخمین احتمالات نمونه برداری پس از رد دارد. |
محدوده حداکثر | نمونهبردار اعداد صحیح را از بازه [0، range_max نمونهبرداری میکند. |
گزینه ها | مقادیر ویژگی های اختیاری را حمل می کند |
برمی گرداند
- یک نمونه جدید از FixedUnigramCandidateSampler
استاتیک عمومی FixedUnigramCandidateSampler.Options distortion (اعوجاج شناور)
مولفه های
اعوجاج | اعوجاج برای انحراف توزیع احتمال یک گرم استفاده می شود. هر وزن ابتدا قبل از اضافه شدن به توزیع یونیگرم داخلی به قدرت اعوجاج افزایش می یابد. در نتیجه، اعوجاج = 1.0 نمونه گیری unigram منظم (همانطور که توسط فایل vocab تعریف شده است) و اعوجاج = 0.0 توزیع یکنواختی را ارائه می دهد. |
---|
ثابت عمومی FixedUnigramCandidateSampler.Options numReservedIds (Long numReservedIds)
مولفه های
numReservedIds | به صورت اختیاری، برخی از شناسه های رزرو شده را می توان در محدوده [0، ...، num_reserved_ids) توسط کاربران اضافه کرد. یک مورد استفاده این است که یک رمز کلمه ناشناخته خاص به عنوان ID 0 استفاده می شود. این شناسه ها احتمال نمونه برداری 0 خواهند داشت. |
---|
استاتیک عمومی FixedUnigramCandidateSampler.Options numShards (numShards طولانی)
مولفه های
numShards | نمونهبردار را میتوان برای نمونهبرداری از زیر مجموعهای از محدوده اصلی به منظور سرعت بخشیدن به کل محاسبات از طریق موازیسازی استفاده کرد. این پارامتر (همراه با 'shard') تعداد پارتیشن هایی را نشان می دهد که در محاسبات کلی استفاده می شوند. |
---|
خروجی عمومی < TINT64 > sampledCandidates ()
بردار طول num_sampled، که در آن هر عنصر شناسه یک کاندید نمونه است.
خروجی عمومی < TFloat32 > sampledExpectedCount ()
بردار طول num_sampled، برای هر کاندید نمونه گیری شده نشان دهنده تعداد دفعاتی است که انتظار می رود کاندید در دسته ای از کاندیداهای نمونه گیری رخ دهد. اگر منحصر به فرد = درست است، پس این یک احتمال است.
استاتیک عمومی FixedUnigramCandidateSampler.Options seed (Long seed)
مولفه های
دانه | اگر seed یا seed2 غیر صفر باشد، مولد اعداد تصادفی توسط دانه داده شده بذر می شود. در غیر این صورت، توسط یک بذر تصادفی بذر می شود. |
---|
عمومی ثابت FixedUnigramCandidateSampler.Options seed2 (Long seed2)
مولفه های
دانه 2 | دانه دوم برای جلوگیری از برخورد دانه. |
---|
استاتیک عمومی FixedUnigramCandidateSampler.Shard Options (Long Shard)
مولفه های
تکه شکسته | نمونهبردار را میتوان برای نمونهبرداری از زیر مجموعهای از محدوده اصلی به منظور سرعت بخشیدن به کل محاسبات از طریق موازیسازی استفاده کرد. این پارامتر (همراه با 'num_shards') شماره پارتیشن خاص یک نمونه کار را در هنگام استفاده از پارتیشن بندی نشان می دهد. |
---|
خروجی عمومی < TFloat32 > trueExpectedCount ()
یک ماتریس batch_size * num_true، نشان دهنده تعداد دفعاتی است که انتظار میرود هر نامزد در دستهای از نامزدهای نمونهگیری رخ دهد. اگر منحصر به فرد = درست است، پس این یک احتمال است.
ثابت عمومی FixedUnigramCandidateSampler.Options unigrams (List<Float> unigrams)
مولفه های
یک گرم | فهرستی از تعداد یا احتمالات یونیگرام، یکی در هر شناسه به ترتیب متوالی. دقیقاً یکی از vocab_file و unigram ها باید به این گزینه منتقل شود. |
---|
استاتیک عمومی FixedUnigramCandidateSampler.Options vocabFile (String vocabFile)
مولفه های
vocabFile | هر خط معتبر در این فایل (که باید قالبی شبیه CSV داشته باشد) با شناسه کلمه معتبر مطابقت دارد. شناسه ها به ترتیب ترتیب هستند و از num_reserved_ids شروع می شوند. انتظار می رود آخرین ورودی در هر خط مقداری باشد که با تعداد یا احتمال نسبی مطابقت دارد. دقیقاً یکی از vocab_file و unigram ها باید به این گزینه منتقل شود. |
---|