UnicodeDecodeWithOffsets

מחלקה סופית ציבורית UnicodeDecodeWithOffsets

מפענח כל מחרוזת ב'קלט' לרצף של נקודות קוד Unicode.

נקודות הקוד של התווים עבור כל המחרוזות מוחזרות באמצעות וקטור יחיד `char_values`, כאשר מחרוזות מורחבות לתווים בסדר שורה ראשי. באופן דומה, קיזוז בתים ההתחלתיים של התווים מוחזרים באמצעות וקטור יחיד `char_to_byte_starts`, עם מחרוזות מורחבות בסדר שורה ראשי.

הטנזור `row_splits` מציין היכן מתחילות ומסתיימות נקודות הקוד וקיזוז ההתחלה עבור כל מחרוזת קלט בתוך הטנסורים `char_values` ו-`char_to_byte_starts`. בפרט, הערכים של 'המחרוזת ה-i' (בסדר שורה מרכזית) מאוחסנים בפרוסה '[row_splits[i]:row_splits[i+1]]'. לכן:

  • `char_values[row_splits[i]+j]` היא נקודת הקוד של Unicode עבור התו `j` במחרוזת `i` (בסדר שורה ראשי).
  • `char_to_bytes_starts[row_splits[i]+j]` הוא היסט בייט ההתחלה עבור התו `j` במחרוזת `i` (בסדר שורה ראשי).
  • `row_splits[i+1] - row_splits[i]` הוא מספר התווים במחרוזת `i` (בסדר שורה ראשי).

כיתות מקוננות

מעמד UnicodeDecodeWithOffsets.Options תכונות אופציונליות עבור UnicodeDecodeWithOffsets

קבועים

חוּט OP_NAME השם של המבצע הזה, כפי שידוע על ידי מנוע הליבה של TensorFlow

שיטות ציבוריות

פלט < TInt64 >
charToByteStarts ()
1D int32 Tensor המכיל את אינדקס הבתים במחרוזת הקלט שבה מתחיל כל תו ב- `char_values`.
פלט < TInt32 >
charValues ​​()
טנסור 1D int32 המכיל את נקודות הקוד המפוענחות.
סטטי UnicodeDecodeWithOffsets < TInt64 >
צור ( Scope scope, Operand < TString > input, String inputEncoding, Options... options)
שיטת מפעל ליצירת מחלקה העוטפת פעולת UnicodeDecodeWithOffsets חדשה באמצעות סוגי פלט ברירת מחדל.
סטטי <T מרחיב TNumber > UnicodeDecodeWithOffsets <T>
צור ( scope scope, Operand < TSString > input, String inputEncoding, Class<T> Tsplits, Options... options)
שיטת מפעל ליצירת מחלקה העוטפת פעולת UnicodeDecodeWithOffsets חדשה.
סטטי UnicodeDecodeWithOffsets.Options
שגיאות (שגיאות מחרוזות)
סטטי UnicodeDecodeWithOffsets.Options
replaceControlCharacters (בוליאני replaceControlCharacters)
סטטי UnicodeDecodeWithOffsets.Options
replacementChar (Long replacementChar)
פלט <T>
rowSplits ()
טנזור 1D int32 המכיל את השורה מתפצלת.

שיטות בירושה

קבועים

מחרוזת סופית סטטית ציבורית OP_NAME

השם של המבצע הזה, כפי שידוע על ידי מנוע הליבה של TensorFlow

ערך קבוע: "UnicodeDecodeWithOffsets"

שיטות ציבוריות

פלט ציבורי < TInt64 > charToByteStarts ()

1D int32 Tensor המכיל את אינדקס הבתים במחרוזת הקלט שבה מתחיל כל תו ב- `char_values`.

פלט ציבורי < TInt32 > charValues ​​()

טנסור 1D int32 המכיל את נקודות הקוד המפוענחות.

סטטי ציבורי UnicodeDecodeWithOffsets < TInt64 > create ( היקף היקף , Operand < TString > קלט, קידוד קלט מחרוזת, אפשרויות... אפשרויות)

שיטת מפעל ליצירת מחלקה העוטפת פעולת UnicodeDecodeWithOffsets חדשה באמצעות סוגי פלט ברירת מחדל.

פרמטרים
תְחוּם ההיקף הנוכחי
קֶלֶט הטקסט לפענוח. יכול לקבל כל צורה. שימו לב שהפלט משטח לווקטור של ערכי char.
קידוד קלט קידוד טקסט של מחרוזות הקלט. זהו כל אחד מהקידודים הנתמכים על ידי ממירים אלגוריתמיים של ICU ucnv. דוגמאות: `"UTF-16", "US ASCII", "UTF-8"`.
אפשרויות נושא ערכי תכונות אופציונליות
החזרות
  • מופע חדש של UnicodeDecodeWithOffsets

public static UnicodeDecodeWithOffsets <T> create ( scope scope, Operand < TSString > input, String inputEncoding, Class<T> Tsplits, Options... options)

שיטת מפעל ליצירת מחלקה העוטפת פעולת UnicodeDecodeWithOffsets חדשה.

פרמטרים
תְחוּם ההיקף הנוכחי
קֶלֶט הטקסט לפענוח. יכול לקבל כל צורה. שימו לב שהפלט משטח לווקטור של ערכי char.
קידוד קלט קידוד טקסט של מחרוזות הקלט. זהו כל אחד מהקידודים הנתמכים על ידי ממירים אלגוריתמיים של ICU ucnv. דוגמאות: `"UTF-16", "US ASCII", "UTF-8"`.
אפשרויות נושא ערכי תכונות אופציונליות
החזרות
  • מופע חדש של UnicodeDecodeWithOffsets

public static UnicodeDecodeWithOffsets. שגיאות אפשרויות (שגיאות מחרוזת)

פרמטרים
שגיאות מדיניות טיפול בשגיאות כאשר נמצא עיצוב לא חוקי בקלט. הערך של 'strict' יגרום לפעולה לייצר שגיאת InvalidArgument בכל עיצוב קלט לא חוקי. ערך 'replace' (ברירת המחדל) יגרום לפעולה להחליף כל עיצוב לא חוקי בקלט בנקודת הקוד 'replacement_char'. ערך של 'התעלם' יגרום לפעולה לדלג על כל עיצוב לא חוקי בקלט ולא לייצר תו פלט מתאים.

Public static UnicodeDecodeWithOffsets.Options replaceControlCharacters (Boolean replaceControlCharacters)

פרמטרים
להחליף תווים בקרה האם להחליף את תווי הבקרה C0 (00-1F) ב-'replacement_char'. ברירת המחדל היא שקר.

Public static UnicodeDecodeWithOffsets.Options replacementChar (Long replacementChar)

פרמטרים
החלפהChar נקודת הקוד של התווים החלופיים לשימוש במקום כל עיצוב לא חוקי בקלט כאשר `errors='replace'`. ניתן להשתמש בכל נקודת קוד חוקית של Unicode. ערך ברירת המחדל הוא תו החלפת ה-unicode המוגדר כברירת מחדל הוא 0xFFFD או U+65533.)

פלט ציבורי <T> rowSplits ()

טנזור 1D int32 המכיל את השורה מתפצלת.