UnicodeDecodeWithOffsets

публичный финальный класс UnicodeDecodeWithOffsets

Декодирует каждую строку в `input` в последовательность кодовых точек Unicode.

Кодовые точки символов для всех строк возвращаются с использованием одного вектора `char_values`, при этом строки расширяются до символов в порядке следования строк. Аналогичным образом, смещения начальных байтов символов возвращаются с использованием одного вектора `char_to_byte_starts` со строками, развернутыми в порядке строк.

Тензор row_splits указывает, где начинаются и заканчиваются кодовые точки и начальные смещения для каждой входной строки в пределах тензоров char_values ​​и char_to_byte_starts. В частности, значения для `i`-й строки (в порядке следования строк) сохраняются в срезе `[row_splits[i]:row_splits[i+1]]`. Таким образом:

  • `char_values[row_splits[i]+j]` — это код Unicode для `j`-го символа в `i`-й строке (в порядке следования строк).
  • `char_to_bytes_starts[row_splits[i]+j]` — это смещение начального байта для `j`-го символа в `i`-й строке (в порядке старших строк).
  • `row_splits[i+1] - row_splits[i]` — это количество символов в `i`-й строке (в порядке возрастания строк).

Вложенные классы

сорт UnicodeDecodeWithOffsets.Options Дополнительные атрибуты для UnicodeDecodeWithOffsets

Константы

Нить OP_NAME Название этой операции, известное основному движку TensorFlow.

Публичные методы

Вывод < TInt64 >
charToByteStarts ()
Тензор 1D int32, содержащий индекс байта во входной строке, где начинается каждый символ в `char_values`.
Вывод < TInt32 >
символьные значения ()
Тензор 1D int32, содержащий декодированные кодовые точки.
статический UnicodeDecodeWithOffsets <TInt64>
create ( Область действия, Операнд < TString > input, String inputEncoding, Опции... параметры)
Фабричный метод для создания класса, обертывающего новую операцию UnicodeDecodeWithOffsets, с использованием типов вывода по умолчанию.
static <T расширяет TNumber > UnicodeDecodeWithOffsets <T>
create ( Область области, Операнд < TString > input, String inputEncoding, Class<T> Tsplits, Options... options)
Фабричный метод для создания класса, обертывающего новую операцию UnicodeDecodeWithOffsets.
статический UnicodeDecodeWithOffsets.Options
ошибки (строковые ошибки)
статический UnicodeDecodeWithOffsets.Options
replaceControlCharacters (логическое значение replaceControlCharacters)
статический UnicodeDecodeWithOffsets.Options
replaceChar (длинная заменаChar)
Выход <Т>
строка Сплит ()
Одномерный тензор int32, содержащий разбиения строк.

Унаследованные методы

Константы

общедоступная статическая финальная строка OP_NAME

Название этой операции, известное основному движку TensorFlow.

Постоянное значение: «UnicodeDecodeWithOffsets»

Публичные методы

публичный вывод <TInt64> charToByteStarts ()

Тензор 1D int32, содержащий индекс байта во входной строке, где начинается каждый символ в `char_values`.

публичный вывод <TInt32> charValues ​​()

Тензор 1D int32, содержащий декодированные кодовые точки.

public static UnicodeDecodeWithOffsets <TInt64> create ( Область действия, Операнд < TString > input, String inputEncoding, Опции... параметры)

Фабричный метод для создания класса, обертывающего новую операцию UnicodeDecodeWithOffsets, с использованием типов вывода по умолчанию.

Параметры
объем текущий объем
вход Текст, который нужно декодировать. Может иметь любую форму. Обратите внимание, что выходные данные сглаживаются до вектора символьных значений.
входноекодирование Текстовое кодирование входных строк. Это любая из кодировок, поддерживаемых алгоритмическими преобразователями ICU ucnv. Примеры: `"UTF-16", "US ASCII", "UTF-8".
параметры содержит значения необязательных атрибутов
Возврат
  • новый экземпляр UnicodeDecodeWithOffsets

public static UnicodeDecodeWithOffsets <T> create (область области действия , операнд < TString > input, String inputEncoding, Class<T> Tsplit, параметры ... )

Фабричный метод для создания класса, обертывающего новую операцию UnicodeDecodeWithOffsets.

Параметры
объем текущий объем
вход Текст, который нужно декодировать. Может иметь любую форму. Обратите внимание, что выходные данные сглаживаются до вектора символьных значений.
входноекодирование Текстовое кодирование входных строк. Это любая из кодировок, поддерживаемых алгоритмическими преобразователями ICU ucnv. Примеры: `"UTF-16", "US ASCII", "UTF-8".
параметры содержит значения необязательных атрибутов
Возврат
  • новый экземпляр UnicodeDecodeWithOffsets

общедоступные статические ошибки UnicodeDecodeWithOffsets.Options (ошибки строки)

Параметры
ошибки Политика обработки ошибок, когда во входных данных обнаружено недопустимое форматирование. Значение 'strict' приведет к тому, что операция выдаст ошибку InvalidArgument при любом недопустимом форматировании входных данных. Значение «replace» (по умолчанию) приведет к тому, что операция заменит любое недопустимое форматирование во входных данных кодовой точкой «replacement_char». Значение «игнорировать» приведет к тому, что операция пропустит любое недопустимое форматирование во входных данных и не выдаст соответствующий выходной символ.

общедоступный статический UnicodeDecodeWithOffsets.Options replaceControlCharacters (логическое значение replaceControlCharacters)

Параметры
заменитьControlCharacters Заменять ли управляющие символы C0 (00-1F) на replace_char. По умолчанию — ложь.

общедоступный статический UnicodeDecodeWithOffsets.Options replaceChar (Long replaceChar)

Параметры
заменаChar Код символа замены, который будет использоваться вместо любого недопустимого форматирования во входных данных, когда `errors='replace'`. Можно использовать любой действительный код Unicode. Значением по умолчанию является символ замены Юникода по умолчанию: 0xFFFD или U+65533.)

общедоступный вывод <T> rowSplits ()

Одномерный тензор int32, содержащий разбиения строк.