יוצר תוויות לדגימת מועמדים עם התפלגות אוניגרמה נלמדת.
מדגם יוניגרם יכול להשתמש בהפצת אוניגרמה קבועה הנקראת מקובץ או מועברת כמערך בזיכרון במקום לבנות את ההפצה מנתונים תוך כדי תנועה. ישנה גם אפשרות להטות את החלוקה על ידי הפעלת כוח עיוות על המשקולות.
קובץ אוצר המילים צריך להיות בפורמט דמוי CSV, כאשר השדה האחרון הוא המשקל המשויך למילה.
עבור כל אצווה, פעולה זו בוחרת קבוצה אחת של תוויות מועמדות שנדגמו.
היתרונות של דגימת מועמדים לכל אצווה הם הפשטות והאפשרות של כפל מטריקס צפוף יעיל. החיסרון הוא שיש לבחור את המועמדים הנדגמים ללא תלות בהקשר ובתוויות האמיתיות.
כיתות מקוננות
מעמד | FixedUnigramCandidateSampler.Options | תכונות אופציונליות עבור FixedUnigramCandidateSampler |
קבועים
חוּט | OP_NAME | השם של המבצע הזה, כפי שידוע על ידי מנוע הליבה של TensorFlow |
שיטות ציבוריות
סטטי FixedUnigramCandidateSampler | צור ( scope scope, Operand < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean unique, Long rangeMax, Options... options) שיטת מפעל ליצירת מחלקה העוטפת פעולת FixedUnigramCandidateSampler חדשה. |
סטטי FixedUnigramCandidateSampler.Options | עיוות (עיוות צף) |
סטטי FixedUnigramCandidateSampler.Options | numReservedIds (Long numReservedIds) |
סטטי FixedUnigramCandidateSampler.Options | numShards (Long numShards) |
פלט < TInt64 > | sampledCandidates () וקטור באורך num_sampled, שבו כל אלמנט הוא המזהה של מועמד שנדגם. |
פלט < TFloat32 > | sampledExpectedCount () וקטור באורך num_sampled, עבור כל מועמד שנדגם המייצג את מספר הפעמים שהמועמד צפוי להתרחש בקבוצה של מועמדים שנדגמו. |
סטטי FixedUnigramCandidateSampler.Options | זרע (זרע ארוך) |
סטטי FixedUnigramCandidateSampler.Options | seed2 (זרע ארוך2) |
סטטי FixedUnigramCandidateSampler.Options | רסיס (רסיס ארוך) |
פלט < TFloat32 > | trueExpectedCount () מטריצת batch_size * num_true, המייצגת את מספר הפעמים שכל מועמד צפוי להתרחש באצווה של מועמדים שנדגמו. |
סטטי FixedUnigramCandidateSampler.Options | unigrams (רשימה<Float> unigrams) |
סטטי FixedUnigramCandidateSampler.Options | vocabFile (מחרוזת vocabFile) |
שיטות בירושה
קבועים
מחרוזת סופית סטטית ציבורית OP_NAME
השם של המבצע הזה, כפי שידוע על ידי מנוע הליבה של TensorFlow
שיטות ציבוריות
public static FixedUnigramCandidateSampler create ( scope scope, Operand < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean unique, Long rangeMax, Options... options)
שיטת מפעל ליצירת מחלקה העוטפת פעולת FixedUnigramCandidateSampler חדשה.
פרמטרים
תְחוּם | ההיקף הנוכחי |
---|---|
trueClasss | מטריצת batch_size * num_true, שבה כל שורה מכילה את המזהים של num_true target_classes בתווית המקורית המתאימה. |
numTrue | מספר התוויות האמיתיות לכל הקשר. |
numSampled | מספר המועמדים לדגימה אקראית. |
ייחודי | אם ייחודי הוא נכון, אנו דוגמים עם דחייה, כך שכל המועמדים שנדגמו באצווה יהיו ייחודיים. זה דורש קירוב מסוים כדי להעריך את הסתברויות הדגימה שלאחר הדחייה. |
טווח מקסימום | המדגם ידגום מספרים שלמים מהמרווח [0, range_max). |
אפשרויות | נושא ערכי תכונות אופציונליות |
החזרות
- מופע חדש של FixedUnigramCandidateSampler
public static FixedUnigramCandidateSampler. עיוות אפשרויות (עיוות צף)
פרמטרים
עיוות | העיוות משמש כדי להטות את התפלגות ההסתברות של אוניגרמה. כל משקל מועלה תחילה לעוצמת העיוות לפני הוספת התפלגות האוניגרמה הפנימית. כתוצאה מכך, עיוות = 1.0 נותן דגימת אוניגרמה רגילה (כפי שהוגדר בקובץ ה-vocab), ועיוות = 0.0 נותן התפלגות אחידה. |
---|
public static FixedUnigramCandidateSampler.Options numReservedIds (Long numReservedIds)
פרמטרים
numReservedIds | לחלופין, ניתן להוסיף כמה מזהים שמורים בטווח [0, ..., num_reserved_ids) על ידי המשתמשים. מקרה שימוש אחד הוא שאסימון מיוחד של מילה לא ידוע משמש כמזהה 0. למזהים אלה תהיה הסתברות דגימה של 0. |
---|
public static FixedUnigramCandidateSampler.Options numShards (Long numShards)
פרמטרים
numShards | ניתן להשתמש בדמפלר כדי לדגום מתת-קבוצה של הטווח המקורי על מנת לזרז את כל החישוב באמצעות מקביליות. פרמטר זה (יחד עם 'רסיס') מציין את מספר המחיצות שנמצאות בשימוש בחישוב הכולל. |
---|
פלט ציבורי < TInt64 > sampledCandidates ()
וקטור באורך num_sampled, שבו כל אלמנט הוא המזהה של מועמד שנדגם.
פלט ציבורי < TFloat32 > sampledExpectedCount ()
וקטור באורך num_sampled, עבור כל מועמד שנדגם המייצג את מספר הפעמים שהמועמד צפוי להתרחש בקבוצה של מועמדים שנדגמו. אם ייחודי=נכון, אז זו הסתברות.
public static FixedUnigramCandidateSampler.Seed אפשרויות (סיד ארוך)
פרמטרים
זֶרַע | אם ה-seed או seed2 מוגדרים לא-אפס, מחולל המספרים האקראיים מוזרע על ידי ה-seed הנתון. אחרת, הוא נזרע על ידי זרע אקראי. |
---|
public static FixedUnigramCandidateSampler.Options seed2 (גרעין ארוך2)
פרמטרים
זרע 2 | זרע שני כדי למנוע התנגשות זרע. |
---|
public static FixedUnigramCandidateSampler. קטע אפשרויות (רסיס ארוך)
פרמטרים
חֶרֶס | ניתן להשתמש בדמפלר כדי לדגום מתת-קבוצה של הטווח המקורי על מנת לזרז את כל החישוב באמצעות מקביליות. פרמטר זה (יחד עם 'num_shards') מציין את מספר המחיצה המסוים של הפעלת דגימה, כאשר נעשה שימוש במחיצות. |
---|
פלט ציבורי < TFloat32 > trueExpectedCount ()
מטריצת batch_size * num_true, המייצגת את מספר הפעמים שכל מועמד צפוי להתרחש באצווה של מועמדים שנדגמו. אם ייחודי=נכון, אז זו הסתברות.
public static FixedUnigramCandidateSampler.Options unigrams (List<Float> unigrams)
פרמטרים
אוניגרמים | רשימה של ספירות או הסתברויות אוניגרמות, אחת לכל מזהה בסדר עוקב. בדיוק אחד מ-vocab_file ו-unigrams צריך לעבור לאופ הזה. |
---|
public static FixedUnigramCandidateSampler.Options vocabFile (String vocabFile)
פרמטרים
vocabFile | כל שורה חוקית בקובץ זה (שצריכה להיות בפורמט דמוי CSV) מתאימה לזיהוי מילה חוקי. המזהים נמצאים בסדר עוקב, החל מ-num_reserved_ids. הערך האחרון בכל שורה צפוי להיות ערך המתאים לספירה או להסתברות יחסית. בדיוק אחד מ-vocab_file ו-unigrams צריך לעבור לאופ הזה. |
---|