هر رشته را در "ورودی" به دنباله ای از نقاط کد یونیکد رمزگشایی می کند.
نقاط کد کاراکتر برای همه رشتهها با استفاده از یک بردار «char_values» بازگردانده میشوند و رشتهها به ترتیب ردیف اصلی به کاراکترها گسترش مییابند. به طور مشابه، افستهای بایت شروع کاراکتر با استفاده از یک بردار «char_to_byte_starts» با رشتههایی که به ترتیب ردیف اصلی گسترش مییابند، برگردانده میشوند.
تانسور «row_splits» نشان میدهد که نقاط کد و آفستهای شروع برای هر رشته ورودی در تانسورهای «char_values» و «char_to_byte_starts» از کجا شروع میشوند و به پایان میرسند. به طور خاص، مقادیر رشته «i» (به ترتیب ردیف اصلی) در برش «[row_splits[i]:row_splits[i+1]]» ذخیره میشوند. بدین ترتیب:
- «char_values[row_splits[i]+j]» نقطه کد یونیکد برای نویسه «j» در رشته «i» است (به ترتیب ردیف اصلی).
- «char_to_bytes_starts[row_splits[i]+j]» بایت آغازین برای نویسه «j» در رشته «i» (به ترتیب ردیف اصلی) است.
- «row_splits[i+1] - row_splits[i]» تعداد کاراکترهای رشته «i» است (به ترتیب ردیف اصلی).
کلاس های تو در تو
کلاس | UnicodeDecodeWithOffsets.Options | ویژگی های اختیاری برای UnicodeDecodeWithOffsets |
ثابت ها
رشته | OP_NAME | نام این عملیات، همانطور که توسط موتور هسته TensorFlow شناخته می شود |
روش های عمومی
خروجی < TINT64 > | charToByteStarts () یک تانسور 1 بعدی int32 حاوی شاخص بایت در رشته ورودی جایی که هر کاراکتر در «char_values» شروع میشود. |
خروجی < TINT32 > | char Values () یک تانسور 1 بعدی int32 که حاوی کدهای رمزگشایی شده است. |
استاتیک UnicodeDecodeWithOffsets < TINT64 > | ایجاد (حوزه دامنه ، عملوند < TString > ورودی، رشته ورودی Encoding، گزینهها... گزینهها) روش کارخانه برای ایجاد کلاسی که یک عملیات UnicodeDecodeWithOffsets جدید را با استفاده از انواع خروجی پیش فرض بسته بندی می کند. |
استاتیک <T TNumber > UnicodeDecodeWithOffsets <T> را گسترش می دهد | ایجاد ( دامنه دامنه ، عملوند < TString > ورودی، رشته ورودی Encoding، Class<T> Tsplits، گزینهها... گزینهها) روش کارخانه برای ایجاد کلاسی که یک عملیات UnicodeDecodeWithOffsets جدید را بسته بندی می کند. |
استاتیک UnicodeDecodeWithOffsets.Options | خطاها (خطاهای رشته ای) |
استاتیک UnicodeDecodeWithOffsets.Options | جایگزین کنترل کاراکترها (شخصیت های جایگزین بولی) |
استاتیک UnicodeDecodeWithOffsets.Options | جایگزینی Char (Long replacementChar) |
خروجی <T> | rowSplits () یک تانسور 1 بعدی int32 حاوی ردیف شکافته می شود. |
روش های ارثی
ثابت ها
رشته نهایی ثابت عمومی OP_NAME
نام این عملیات، همانطور که توسط موتور هسته TensorFlow شناخته می شود
روش های عمومی
خروجی عمومی < TINT64 > charToByteStarts ()
یک تانسور 1 بعدی int32 حاوی شاخص بایت در رشته ورودی جایی که هر کاراکتر در «char_values» شروع میشود.
عمومی ایستا UnicodeDecodeWithOffsets < TINT64 > ایجاد ( دامنه دامنه ، عملوند < TString > ورودی، رشته ورودی Encoding، گزینهها... گزینهها)
روش کارخانه برای ایجاد کلاسی که یک عملیات UnicodeDecodeWithOffsets جدید را با استفاده از انواع خروجی پیش فرض بسته بندی می کند.
مولفه های
محدوده | محدوده فعلی |
---|---|
ورودی | متنی که باید رمزگشایی شود. می تواند هر شکلی داشته باشد. توجه داشته باشید که خروجی به بردار مقادیر کاراکتر مسطح می شود. |
inputEncoding | رمزگذاری متن رشته های ورودی این هر یک از رمزگذاری های پشتیبانی شده توسط مبدل های الگوریتمی ICU ucnv است. مثالها: "UTF-16"، "US ASCII"، "UTF-8"". |
گزینه ها | مقادیر ویژگی های اختیاری را حمل می کند |
برمی گرداند
- یک نمونه جدید از UnicodeDecodeWithOffsets
عمومی استاتیک UnicodeDecodeWithOffsets <T> ایجاد ( دامنه دامنه ، عملوند < TString > ورودی، رشته ورودی Encoding، Class<T> Tsplits، گزینهها... گزینهها)
روش کارخانه برای ایجاد کلاسی که یک عملیات UnicodeDecodeWithOffsets جدید را بسته بندی می کند.
مولفه های
محدوده | محدوده فعلی |
---|---|
ورودی | متنی که باید رمزگشایی شود. می تواند هر شکلی داشته باشد. توجه داشته باشید که خروجی به بردار مقادیر کاراکتر مسطح می شود. |
inputEncoding | رمزگذاری متن رشته های ورودی این هر یک از رمزگذاری های پشتیبانی شده توسط مبدل های الگوریتمی ICU ucnv است. مثالها: "UTF-16"، "US ASCII"، "UTF-8"". |
گزینه ها | مقادیر ویژگی های اختیاری را حمل می کند |
برمی گرداند
- یک نمونه جدید از UnicodeDecodeWithOffsets
خطاهای عمومی استاتیک UnicodeDecodeWithOffsets.Options (خطاهای رشته ای)
مولفه های
خطاها | خط مشی رسیدگی به خطا زمانی که قالب بندی نامعتبر در ورودی یافت می شود. مقدار 'strict' باعث می شود که عملیات خطای InvalidArgument در هر قالب بندی ورودی نامعتبر ایجاد کند. مقدار «replace» (پیشفرض) باعث میشود که عملیات هر قالببندی نامعتبر در ورودی را با کد «replacement_char» جایگزین کند. مقدار "نادیده گرفتن" باعث می شود عملیات از هر قالب بندی نامعتبر در ورودی صرف نظر کند و هیچ کاراکتر خروجی مربوطه تولید نکند. |
---|
عمومی استاتیک UnicodeDecodeWithOffsets.Options replaceControlCharacters (Boolean replaceControlCharacters)
مولفه های
جایگزین کنترل کاراکترها | آیا باید نویسههای کنترلی C0 (00-1F) را با «کاراکتر_جایگزینی» جایگزین کرد. پیش فرض نادرست است. |
---|
عمومی استاتیک UnicodeDecodeWithOffsets.Options replacementChar (Long replacementChar)
مولفه های
جایگزینی Char | نقطه کد کاراکتر جایگزین برای استفاده به جای هر قالب بندی نامعتبر در ورودی در هنگام `errors='replace'`. ممکن است از هر کد یونیکد معتبر استفاده شود. مقدار پیشفرض این است که کاراکتر جایگزین یونیکد پیشفرض 0xFFFD یا U+65533 است.) |
---|