نظرًا لوجود مسار لملفات المفردات الجديدة والقديمة، يتم إرجاع Tensor لإعادة رسم خرائطه
الطول `num_new_vocab`، حيث يحتوي `remapping[i]` على رقم الصف في المفردات القديمة الذي يتوافق مع الصف `i` في المفردات الجديدة (بدءًا من السطر `new_vocab_offset` وحتى `num_new_vocab` الكيانات)، أو `- 1` إذا كان الإدخال "i" في المفردات الجديدة ليس في المفردات القديمة. تقتصر المفردات القديمة على إدخالات `old_vocab_size` الأولى إذا لم تكن `old_vocab_size` هي القيمة الافتراضية لـ -1.
يتيح `num_vocab_offset` الاستخدام في حالة المتغير المقسم، ويجب تعيينه بشكل عام من خلال فحص معلومات التقسيم. يجب أن يكون تنسيق الملفات ملفًا نصيًا، بحيث يحتوي كل سطر على كيان واحد ضمن المفردات.
على سبيل المثال، مع `new_vocab_file`، ملف نصي يحتوي على كل من العناصر التالية في سطر واحد: `[f0, f1, f2, f3]`, old_vocab_file = [f1, f0, f3], `num_new_vocab = 3, new_vocab_offset = 1`، فإن إعادة التعيين التي تم إرجاعها ستكون `[0, -1, 2]`.
تقوم العملية أيضًا بإرجاع عدد الإدخالات في المفردات الجديدة التي كانت موجودة في المفردات القديمة، والتي يتم استخدامها لحساب عدد القيم المراد تهيئتها في إعادة تعيين مصفوفة الوزن
يمكن استخدام هذه الوظيفة لإعادة تعيين مفردات الصف (عادةً الميزات) ومفردات الأعمدة (عادةً الفئات) من نقاط فحص TensorFlow. لاحظ أن منطق التقسيم يعتمد على مفردات متجاورة تتوافق مع المتغيرات المقسمة على div. علاوة على ذلك، فإن إعادة التعيين الأساسية تستخدم IndexTable (على عكس CuckooTable غير الدقيق)، لذا يجب أن يستخدم كود العميل Index_table_from_file() المطابق كما يفعل إطار عمل FeaturesColumn (على عكس tf.feature_to_id()، الذي يستخدم CuckooTable).
فئات متداخلة
فصل | GenerateVocabRemapping.Options | السمات الاختيارية لـ GenerateVocabRemapping |
الثوابت
خيط | OP_NAME | اسم هذه العملية كما هو معروف بواسطة محرك TensorFlow الأساسي |
الأساليب العامة
ثابت GenerateVocabRemapping | |
الإخراج <TInt32> | رقم الحاضر () عدد إدخالات المفردات الجديدة الموجودة في المفردات القديمة. |
ثابت GenerateVocabRemapping.Options | oldVocabSize (طويل قديمVocabSize) |
الإخراج <TInt64> | إعادة رسم الخرائط () موتر بطول num_new_vocab حيث يكون العنصر الموجود في الفهرس i مساويًا للمعرف القديم الذي يتم تعيينه للمعرف الجديد i. |
الطرق الموروثة
الثوابت
السلسلة النهائية الثابتة العامة OP_NAME
اسم هذه العملية كما هو معروف بواسطة محرك TensorFlow الأساسي
الأساليب العامة
إنشاء GenerateVocabRemapping ثابت عام ( نطاق النطاق ، المعامل < TString > newVocabFile، المعامل < TString > oldVocabFile، Long newVocabOffset، Long numNewVocab، Options... options)
طريقة المصنع لإنشاء فئة تغلف عملية GenerateVocabRemapping جديدة.
حدود
نِطَاق | النطاق الحالي |
---|---|
newVocabFile | المسار إلى ملف vocab الجديد. |
oldVocabFile | المسار إلى ملف vocab القديم. |
newVocabOffset | كم عدد الإدخالات في ملف vocab الجديد لبدء القراءة. |
numNewVocab | عدد الإدخالات في ملف vocab الجديد لإعادة التخطيط. |
خيارات | يحمل قيم السمات الاختيارية |
عائدات
- مثيل جديد لـ GenerateVocabRemapping
GenerateVocabRemapping.Options ثابت عام ، oldVocabSize (oldVocabSize طويل)
حدود
oldVocabSize | عدد الإدخالات في ملف vocab القديم الذي يجب مراعاته. إذا -1، استخدم المفردات القديمة بأكملها. |
---|