UnicodeDecodeWithOffsets

lớp cuối cùng công khai UnicodeDecodeWithOffsets

Giải mã từng chuỗi trong `input` thành một chuỗi các điểm mã Unicode.

Điểm mã ký tự cho tất cả các chuỗi được trả về bằng một vectơ `char_values`, với các chuỗi được mở rộng thành các ký tự theo thứ tự hàng lớn. Tương tự, độ lệch byte bắt đầu của ký tự được trả về bằng cách sử dụng một vectơ duy nhất `char_to_byte_starts`, với các chuỗi được mở rộng theo thứ tự hàng lớn.

Tenxơ `row_splits` cho biết vị trí các điểm mã và độ lệch bắt đầu cho mỗi chuỗi đầu vào bắt đầu và kết thúc trong các tenxơ `char_values` và `char_to_byte_starts`. Cụ thể, các giá trị cho chuỗi thứ `i` (theo thứ tự hàng lớn) được lưu trữ trong slice `[row_splits[i]:row_splits[i+1]]`. Như vậy:

  • `char_values[row_splits[i]+j]` là điểm mã Unicode cho ký tự thứ `j` trong chuỗi thứ `i` (theo thứ tự hàng lớn).
  • `char_to_bytes_starts[row_splits[i]+j]` là độ lệch byte bắt đầu cho ký tự thứ `j` trong chuỗi thứ `i` (theo thứ tự hàng lớn).
  • `row_splits[i+1] - row_splits[i]` là số ký tự trong chuỗi thứ `i` (theo thứ tự hàng lớn).

Các lớp lồng nhau

lớp học UnicodeDecodeWithOffsets.Options Thuộc tính tùy chọn cho UnicodeDecodeWithOffsets

Hằng số

Sợi dây OP_NAME Tên của op này, được biết đến bởi công cụ lõi TensorFlow

Phương pháp công cộng

Đầu ra < TInt64 >
charToByteStarts ()
Tensor int32 1D chứa chỉ mục byte trong chuỗi đầu vào trong đó mỗi ký tự trong `char_values` bắt đầu.
Đầu ra < TInt32 >
giá trị char ()
Tensor 1D int32 chứa các điểm mã được giải mã.
UnicodeDecodeWithOffsets tĩnh < TInt64 >
tạo ( Phạm vi phạm vi, đầu vào Toán hạng < TString >, Mã hóa đầu vào chuỗi, Tùy chọn ... )
Phương thức gốc để tạo một lớp bao bọc thao tác UnicodeDecodeWithOffsets mới bằng cách sử dụng các loại đầu ra mặc định.
tĩnh <T mở rộng TNumber > UnicodeDecodeWithOffsets <T>
tạo ( Phạm vi phạm vi , đầu vào Toán hạng < TString >, Mã hóa đầu vào chuỗi, Lớp <T> Tsplits, Tùy chọn... )
Phương thức gốc để tạo một lớp bao bọc thao tác UnicodeDecodeWithOffsets mới.
UnicodeDecodeWithOffsets.Options tĩnh
lỗi (Lỗi chuỗi)
UnicodeDecodeWithOffsets.Options tĩnh
thay thếControlCharacters (Boolean thay thếControlCharacters)
UnicodeDecodeWithOffsets.Options tĩnh
thay thếChar (Char thay thế dài)
Đầu ra <T>
rowSplits ()
Một tenxơ int32 1D chứa các hàng được chia tách.

Phương pháp kế thừa

Hằng số

Chuỗi cuối cùng tĩnh công khai OP_NAME

Tên của op này, được biết đến bởi công cụ lõi TensorFlow

Giá trị không đổi: "UnicodeDecodeWithOffsets"

Phương pháp công cộng

Đầu ra công khai < TInt64 > charToByteStarts ()

Tensor int32 1D chứa chỉ mục byte trong chuỗi đầu vào trong đó mỗi ký tự trong `char_values` bắt đầu.

Đầu ra công khai < TInt32 > charValues ​​()

Tensor 1D int32 chứa các điểm mã được giải mã.

public static UnicodeDecodeWithOffsets < TInt64 > tạo ( Phạm vi phạm vi, đầu vào Toán hạng < TString >, Mã hóa đầu vào chuỗi, Tùy chọn... )

Phương thức gốc để tạo một lớp bao bọc thao tác UnicodeDecodeWithOffsets mới bằng cách sử dụng các loại đầu ra mặc định.

Thông số
phạm vi phạm vi hiện tại
đầu vào Văn bản cần được giải mã. Có thể có bất kỳ hình dạng. Lưu ý rằng đầu ra được làm phẳng thành một vectơ có giá trị char.
mã hóa đầu vào Mã hóa văn bản của chuỗi đầu vào. Đây là bất kỳ mã hóa nào được hỗ trợ bởi bộ chuyển đổi thuật toán ucnv của ICU. Ví dụ: `"UTF-16", "US ASCII", "UTF-8"`.
tùy chọn mang các giá trị thuộc tính tùy chọn
Trả lại
  • một phiên bản mới của UnicodeDecodeWithOffsets

public static UnicodeDecodeWithOffsets <T> create ( Phạm vi phạm vi , đầu vào Toán hạng < TString >, String inputEncoding, Class<T> Tsplits, Tùy chọn... tùy chọn)

Phương thức gốc để tạo một lớp bao bọc thao tác UnicodeDecodeWithOffsets mới.

Thông số
phạm vi phạm vi hiện tại
đầu vào Văn bản cần được giải mã. Có thể có bất kỳ hình dạng. Lưu ý rằng đầu ra được làm phẳng thành một vectơ có giá trị char.
mã hóa đầu vào Mã hóa văn bản của chuỗi đầu vào. Đây là bất kỳ mã hóa nào được hỗ trợ bởi bộ chuyển đổi thuật toán ucnv của ICU. Ví dụ: `"UTF-16", "US ASCII", "UTF-8"`.
tùy chọn mang các giá trị thuộc tính tùy chọn
Trả lại
  • một phiên bản mới của UnicodeDecodeWithOffsets

lỗi UnicodeDecodeWithOffsets.Options tĩnh công khai (Lỗi chuỗi)

Thông số
lỗi Chính sách xử lý lỗi khi tìm thấy định dạng không hợp lệ trong đầu vào. Giá trị 'nghiêm ngặt' sẽ khiến thao tác tạo ra lỗi InvalidArgument trên bất kỳ định dạng đầu vào không hợp lệ nào. Giá trị 'thay thế' (mặc định) sẽ khiến thao tác thay thế mọi định dạng không hợp lệ trong đầu vào bằng điểm mã `replacement_char`. Giá trị 'bỏ qua' sẽ khiến thao tác bỏ qua mọi định dạng không hợp lệ trong đầu vào và không tạo ra ký tự đầu ra tương ứng.

UnicodeDecodeWithOffsets.Options thay thếControlCharacters tĩnh công khai (Boolean thayControlCharacters)

Thông số
ký tự điều khiển thay thế Có thay thế các ký tự điều khiển C0 (00-1F) bằng `replacement_char` hay không. Mặc định là sai.

Unicode tĩnh công khaiDecodeWithOffsets.Options thay thếChar (Char thay thế dài)

Thông số
thay thếChar Điểm mã ký tự thay thế sẽ được sử dụng thay cho bất kỳ định dạng không hợp lệ nào trong đầu vào khi `errors='replace'`. Bất kỳ điểm mã unicode hợp lệ nào cũng có thể được sử dụng. Giá trị mặc định là ký tự thay thế unicode mặc định là 0xFFFD hoặc U+65533.)

Đầu ra công khai <T> rowSplits ()

Một tenxơ int32 1D chứa các hàng được phân chia.