Декодирует каждую строку в `input` в последовательность кодовых точек Unicode.
Кодовые точки символов для всех строк возвращаются с использованием одного вектора `char_values`, при этом строки расширяются до символов в порядке следования строк. Аналогичным образом, смещения начальных байтов символов возвращаются с использованием одного вектора `char_to_byte_starts` со строками, развернутыми в порядке строк.
Тензор row_splits указывает, где начинаются и заканчиваются кодовые точки и начальные смещения для каждой входной строки в пределах тензоров char_values и char_to_byte_starts. В частности, значения для `i`-й строки (в порядке следования строк) сохраняются в срезе `[row_splits[i]:row_splits[i+1]]`. Таким образом:
- `char_values[row_splits[i]+j]` — это код Unicode для `j`-го символа в `i`-й строке (в порядке следования строк).
- `char_to_bytes_starts[row_splits[i]+j]` — это смещение начального байта для `j`-го символа в `i`-й строке (в порядке старших строк).
- `row_splits[i+1] - row_splits[i]` — это количество символов в `i`-й строке (в порядке возрастания строк).
Вложенные классы
сорт | UnicodeDecodeWithOffsets.Options | Дополнительные атрибуты для UnicodeDecodeWithOffsets |
Константы
Нить | OP_NAME | Название этой операции, известное основному движку TensorFlow. |
Публичные методы
Вывод < TInt64 > | charToByteStarts () Тензор 1D int32, содержащий индекс байта во входной строке, где начинается каждый символ в `char_values`. |
Вывод < TInt32 > | символьные значения () Тензор 1D int32, содержащий декодированные кодовые точки. |
статический UnicodeDecodeWithOffsets <TInt64> | |
static <T расширяет TNumber > UnicodeDecodeWithOffsets <T> | create ( Область области, Операнд < TString > input, String inputEncoding, Class<T> Tsplits, Options... options) Фабричный метод для создания класса, обертывающего новую операцию UnicodeDecodeWithOffsets. |
статический UnicodeDecodeWithOffsets.Options | ошибки (строковые ошибки) |
статический UnicodeDecodeWithOffsets.Options | replaceControlCharacters (логическое значение replaceControlCharacters) |
статический UnicodeDecodeWithOffsets.Options | replaceChar (длинная заменаChar) |
Выход <Т> | строка Сплит () Одномерный тензор int32, содержащий разбиения строк. |
Унаследованные методы
Константы
общедоступная статическая финальная строка OP_NAME
Название этой операции, известное основному движку TensorFlow.
Публичные методы
публичный вывод <TInt64> charToByteStarts ()
Тензор 1D int32, содержащий индекс байта во входной строке, где начинается каждый символ в `char_values`.
public static UnicodeDecodeWithOffsets <TInt64> create ( Область действия, Операнд < TString > input, String inputEncoding, Опции... параметры)
Фабричный метод для создания класса, обертывающего новую операцию UnicodeDecodeWithOffsets, с использованием типов вывода по умолчанию.
Параметры
объем | текущий объем |
---|---|
вход | Текст, который нужно декодировать. Может иметь любую форму. Обратите внимание, что выходные данные сглаживаются до вектора символьных значений. |
входноекодирование | Текстовое кодирование входных строк. Это любая из кодировок, поддерживаемых алгоритмическими преобразователями ICU ucnv. Примеры: `"UTF-16", "US ASCII", "UTF-8". |
параметры | содержит значения необязательных атрибутов |
Возврат
- новый экземпляр UnicodeDecodeWithOffsets
public static UnicodeDecodeWithOffsets <T> create (область области действия , операнд < TString > input, String inputEncoding, Class<T> Tsplit, параметры ... )
Фабричный метод для создания класса, обертывающего новую операцию UnicodeDecodeWithOffsets.
Параметры
объем | текущий объем |
---|---|
вход | Текст, который нужно декодировать. Может иметь любую форму. Обратите внимание, что выходные данные сглаживаются до вектора символьных значений. |
входноекодирование | Текстовое кодирование входных строк. Это любая из кодировок, поддерживаемых алгоритмическими преобразователями ICU ucnv. Примеры: `"UTF-16", "US ASCII", "UTF-8". |
параметры | содержит значения необязательных атрибутов |
Возврат
- новый экземпляр UnicodeDecodeWithOffsets
общедоступные статические ошибки UnicodeDecodeWithOffsets.Options (ошибки строки)
Параметры
ошибки | Политика обработки ошибок, когда во входных данных обнаружено недопустимое форматирование. Значение 'strict' приведет к тому, что операция выдаст ошибку InvalidArgument при любом недопустимом форматировании входных данных. Значение «replace» (по умолчанию) приведет к тому, что операция заменит любое недопустимое форматирование во входных данных кодовой точкой «replacement_char». Значение «игнорировать» приведет к тому, что операция пропустит любое недопустимое форматирование во входных данных и не выдаст соответствующий выходной символ. |
---|
общедоступный статический UnicodeDecodeWithOffsets.Options replaceControlCharacters (логическое значение replaceControlCharacters)
Параметры
заменитьControlCharacters | Заменять ли управляющие символы C0 (00-1F) на replace_char. По умолчанию — ложь. |
---|
общедоступный статический UnicodeDecodeWithOffsets.Options replaceChar (Long replaceChar)
Параметры
заменаChar | Код символа замены, который будет использоваться вместо любого недопустимого форматирования во входных данных, когда `errors='replace'`. Можно использовать любой действительный код Unicode. Значением по умолчанию является символ замены Юникода по умолчанию: 0xFFFD или U+65533.) |
---|