UnicodeDecodeWithOffsets

کلاس نهایی عمومی UnicodeDecodeWithOffsets

هر رشته را در "ورودی" به دنباله ای از نقاط کد یونیکد رمزگشایی می کند.

نقاط کد کاراکتر برای همه رشته‌ها با استفاده از یک بردار «char_values» بازگردانده می‌شوند و رشته‌ها به ترتیب ردیف اصلی به کاراکترها گسترش می‌یابند. به طور مشابه، افست‌های بایت شروع کاراکتر با استفاده از یک بردار «char_to_byte_starts» با رشته‌هایی که به ترتیب ردیف اصلی گسترش می‌یابند، برگردانده می‌شوند.

تانسور «row_splits» نشان می‌دهد که نقاط کد و آفست‌های شروع برای هر رشته ورودی در تانسورهای «char_values» و «char_to_byte_starts» از کجا شروع می‌شوند و به پایان می‌رسند. به طور خاص، مقادیر رشته «i» (به ترتیب ردیف اصلی) در برش «[row_splits[i]:row_splits[i+1]]» ذخیره می‌شوند. بدین ترتیب:

  • «char_values[row_splits[i]+j]» نقطه کد یونیکد برای نویسه «j» در رشته «i» است (به ترتیب ردیف اصلی).
  • «char_to_bytes_starts[row_splits[i]+j]» بایت آغازین برای نویسه «j» در رشته «i» (به ترتیب ردیف اصلی) است.
  • «row_splits[i+1] - row_splits[i]» تعداد کاراکترهای رشته «i» است (به ترتیب ردیف اصلی).

کلاس های تو در تو

کلاس UnicodeDecodeWithOffsets.Options ویژگی های اختیاری برای UnicodeDecodeWithOffsets

ثابت ها

رشته OP_NAME نام این عملیات، همانطور که توسط موتور هسته TensorFlow شناخته می شود

روش های عمومی

خروجی < TINT64 >
charToByteStarts ()
یک تانسور 1 بعدی int32 حاوی شاخص بایت در رشته ورودی جایی که هر کاراکتر در «char_values» شروع می‌شود.
خروجی < TINT32 >
char Values ​​()
یک تانسور 1 بعدی int32 که حاوی کدهای رمزگشایی شده است.
استاتیک UnicodeDecodeWithOffsets < TINT64 >
ایجاد (حوزه دامنه ، عملوند < TString > ورودی، رشته ورودی Encoding، گزینه‌ها... گزینه‌ها)
روش کارخانه برای ایجاد کلاسی که یک عملیات UnicodeDecodeWithOffsets جدید را با استفاده از انواع خروجی پیش فرض بسته بندی می کند.
استاتیک <T TNumber > UnicodeDecodeWithOffsets <T> را گسترش می دهد
ایجاد ( دامنه دامنه ، عملوند < TString > ورودی، رشته ورودی Encoding، Class<T> Tsplits، گزینه‌ها... گزینه‌ها)
روش کارخانه برای ایجاد کلاسی که یک عملیات UnicodeDecodeWithOffsets جدید را بسته بندی می کند.
استاتیک UnicodeDecodeWithOffsets.Options
خطاها (خطاهای رشته ای)
استاتیک UnicodeDecodeWithOffsets.Options
جایگزین کنترل کاراکترها (شخصیت های جایگزین بولی)
استاتیک UnicodeDecodeWithOffsets.Options
جایگزینی Char (Long replacementChar)
خروجی <T>
rowSplits ()
یک تانسور 1 بعدی int32 حاوی ردیف شکافته می شود.

روش های ارثی

ثابت ها

رشته نهایی ثابت عمومی OP_NAME

نام این عملیات، همانطور که توسط موتور هسته TensorFlow شناخته می شود

مقدار ثابت: "UnicodeDecodeWithOffsets"

روش های عمومی

خروجی عمومی < TINT64 > charToByteStarts ()

یک تانسور 1 بعدی int32 حاوی شاخص بایت در رشته ورودی جایی که هر کاراکتر در «char_values» شروع می‌شود.

خروجی عمومی < TINT32 > charValues ​​()

یک تانسور 1 بعدی int32 که حاوی کدهای رمزگشایی شده است.

عمومی ایستا UnicodeDecodeWithOffsets < TINT64 > ایجاد ( دامنه دامنه ، عملوند < TString > ورودی، رشته ورودی Encoding، گزینه‌ها... گزینه‌ها)

روش کارخانه برای ایجاد کلاسی که یک عملیات UnicodeDecodeWithOffsets جدید را با استفاده از انواع خروجی پیش فرض بسته بندی می کند.

مولفه های
محدوده محدوده فعلی
ورودی متنی که باید رمزگشایی شود. می تواند هر شکلی داشته باشد. توجه داشته باشید که خروجی به بردار مقادیر کاراکتر مسطح می شود.
inputEncoding رمزگذاری متن رشته های ورودی این هر یک از رمزگذاری های پشتیبانی شده توسط مبدل های الگوریتمی ICU ucnv است. مثال‌ها: "UTF-16"، "US ASCII"، "UTF-8"".
گزینه ها مقادیر ویژگی های اختیاری را حمل می کند
برمی گرداند
  • یک نمونه جدید از UnicodeDecodeWithOffsets

عمومی استاتیک UnicodeDecodeWithOffsets <T> ایجاد ( دامنه دامنه ، عملوند < TString > ورودی، رشته ورودی Encoding، Class<T> Tsplits، گزینه‌ها... گزینه‌ها)

روش کارخانه برای ایجاد کلاسی که یک عملیات UnicodeDecodeWithOffsets جدید را بسته بندی می کند.

مولفه های
محدوده محدوده فعلی
ورودی متنی که باید رمزگشایی شود. می تواند هر شکلی داشته باشد. توجه داشته باشید که خروجی به بردار مقادیر کاراکتر مسطح می شود.
inputEncoding رمزگذاری متن رشته های ورودی این هر یک از رمزگذاری های پشتیبانی شده توسط مبدل های الگوریتمی ICU ucnv است. مثال‌ها: "UTF-16"، "US ASCII"، "UTF-8"".
گزینه ها مقادیر ویژگی های اختیاری را حمل می کند
برمی گرداند
  • یک نمونه جدید از UnicodeDecodeWithOffsets

خطاهای عمومی استاتیک UnicodeDecodeWithOffsets.Options (خطاهای رشته ای)

مولفه های
خطاها خط مشی رسیدگی به خطا زمانی که قالب بندی نامعتبر در ورودی یافت می شود. مقدار 'strict' باعث می شود که عملیات خطای InvalidArgument در هر قالب بندی ورودی نامعتبر ایجاد کند. مقدار «replace» (پیش‌فرض) باعث می‌شود که عملیات هر قالب‌بندی نامعتبر در ورودی را با کد «replacement_char» جایگزین کند. مقدار "نادیده گرفتن" باعث می شود عملیات از هر قالب بندی نامعتبر در ورودی صرف نظر کند و هیچ کاراکتر خروجی مربوطه تولید نکند.

عمومی استاتیک UnicodeDecodeWithOffsets.Options replaceControlCharacters (Boolean replaceControlCharacters)

مولفه های
جایگزین کنترل کاراکترها آیا باید نویسه‌های کنترلی C0 (00-1F) را با «کاراکتر_جایگزینی» جایگزین کرد. پیش فرض نادرست است.

عمومی استاتیک UnicodeDecodeWithOffsets.Options replacementChar (Long replacementChar)

مولفه های
جایگزینی Char نقطه کد کاراکتر جایگزین برای استفاده به جای هر قالب بندی نامعتبر در ورودی در هنگام `errors='replace'`. ممکن است از هر کد یونیکد معتبر استفاده شود. مقدار پیش‌فرض این است که کاراکتر جایگزین یونیکد پیش‌فرض 0xFFFD یا U+65533 است.)

خروجی عمومی <T> rowSplits ()

یک تانسور 1 بعدی int32 حاوی ردیف شکافته می شود.