با دادن مسیری به فایلهای واژگان جدید و قدیمی، یک Remapping Tensor از را برمیگرداند
طول «num_new_vocab»، جایی که «remapping[i]» حاوی شماره ردیف در واژگان قدیمی است که مربوط به ردیف «i» در واژگان جدید است (شروع از خط «new_vocab_offset» و تا «num_new_vocab» موجودیتها)، یا «- 1` اگر ورودی «i» در واژگان جدید در واژگان قدیمی نباشد. واژگان قدیمی به اولین ورودیهای «قدیمی_وکاب_اندازه» محدود میشود اگر «قدیمی_واکاب_اندازه» مقدار پیشفرض -1 نباشد.
«num_vocab_offset» استفاده در مورد متغیر پارتیشنشده را فعال میکند و معمولاً باید از طریق بررسی اطلاعات پارتیشنبندی تنظیم شود. فرمت فایل ها باید یک فایل متنی باشد و هر خط حاوی یک موجودیت واحد در واژگان باشد.
به عنوان مثال، با «new_vocab_file» یک فایل متنی حاوی هر یک از عناصر زیر در یک خط: «[f0, f1, f2, f3]», old_vocab_file = [f1, f0, f3], 'num_new_vocab = 3, new_vocab_offset = 1`، نگاشت مجدد بازگشتی «[0، -1، 2]» خواهد بود.
عملیات همچنین تعداد ورودیهای واژگان جدید در واژگان قدیمی را برمیگرداند، که برای محاسبه تعداد مقادیر اولیه در نقشهبرداری مجدد ماتریس وزن استفاده میشود.
از این قابلیت می توان برای ترسیم مجدد واژگان ردیف (معمولاً ویژگی ها) و واژگان ستونی (معمولاً کلاس ها) از نقاط بازرسی TensorFlow استفاده کرد. توجه داشته باشید که منطق پارتیشن بندی متکی به واژگان پیوسته مربوط به متغیرهای پارتیشن بندی شده است. علاوه بر این، نگاشت مجدد زیربنایی از یک IndexTable (برخلاف یک CuckooTable غیر دقیق) استفاده می کند، بنابراین کد مشتری باید از index_table_from_file() مربوطه استفاده کند، همانطور که چارچوب FeatureColumn این کار را انجام می دهد (برخلاف tf.feature_to_id()، که از CuckooTable استفاده می کند.
کلاس های تو در تو
کلاس | GenerateVocabRemapping.Options | ویژگی های اختیاری برای GenerateVocabRemapping |
ثابت ها
رشته | OP_NAME | نام این عملیات، همانطور که توسط موتور هسته TensorFlow شناخته می شود |
روش های عمومی
Static GenerateVocabRemapping | |
خروجی < TINT32 > | numPresent () تعداد ورودیهای واژگان جدید یافت شده در واژگان قدیمی. |
استاتیک GenerateVocabRemapping.Options | oldVocabSize (Long oldVocabSize) |
خروجی < TINT64 > | نقشه برداری مجدد () یک تانسور با طول num_new_vocab که در آن عنصر در نمایه i برابر با شناسه قدیمی است که به شناسه جدید i نگاشت می شود. |
روش های ارثی
ثابت ها
رشته نهایی ثابت عمومی OP_NAME
نام این عملیات، همانطور که توسط موتور هسته TensorFlow شناخته می شود
روش های عمومی
استاتیک عمومی GenerateVocabRemapping ایجاد ( دامنه دامنه ، Operand < TString > newVocabFile، Operand < TString > oldVocabFile، Long newVocabOffset، Long numNewVocab، گزینهها... )
روش Factory برای ایجاد کلاسی که یک عملیات GenerateVocabRemapping جدید را بسته بندی می کند.
مولفه های
محدوده | محدوده فعلی |
---|---|
newVocabFile | مسیر فایل vocab جدید. |
OldVocabFile | مسیر فایل vocab قدیمی. |
newVocabOffset | چند ورودی به فایل vocab جدید برای شروع خواندن. |
numNewVocab | تعداد ورودیهای فایل vocab جدید برای نقشهبرداری مجدد. |
گزینه ها | مقادیر ویژگی های اختیاری را حمل می کند |
برمی گرداند
- یک نمونه جدید از GenerateVocabRemapping
عمومی استاتیک GenerateVocabRemapping.Options oldVocabSize (Long oldVocabSize)
مولفه های
oldVocabSize | تعداد ورودیهای موجود در فایل vocab قدیمی که باید در نظر گرفته شود. اگر -1 باشد، از کل واژگان قدیمی استفاده کنید. |
---|