Giải mã từng chuỗi trong `input` thành một chuỗi các điểm mã Unicode.
Điểm mã ký tự cho tất cả các chuỗi được trả về bằng một vectơ `char_values`, với các chuỗi được mở rộng thành các ký tự theo thứ tự hàng lớn. Tương tự, độ lệch byte bắt đầu của ký tự được trả về bằng cách sử dụng một vectơ duy nhất `char_to_byte_starts`, với các chuỗi được mở rộng theo thứ tự hàng lớn.
Tenxơ `row_splits` cho biết vị trí các điểm mã và độ lệch bắt đầu cho mỗi chuỗi đầu vào bắt đầu và kết thúc trong các tenxơ `char_values` và `char_to_byte_starts`. Cụ thể, các giá trị cho chuỗi thứ `i` (theo thứ tự hàng lớn) được lưu trữ trong slice `[row_splits[i]:row_splits[i+1]]`. Như vậy:
- `char_values[row_splits[i]+j]` là điểm mã Unicode cho ký tự thứ `j` trong chuỗi thứ `i` (theo thứ tự hàng lớn).
- `char_to_bytes_starts[row_splits[i]+j]` là độ lệch byte bắt đầu cho ký tự thứ `j` trong chuỗi thứ `i` (theo thứ tự hàng lớn).
- `row_splits[i+1] - row_splits[i]` là số ký tự trong chuỗi thứ `i` (theo thứ tự hàng lớn).
Các lớp lồng nhau
lớp học | UnicodeDecodeWithOffsets.Options | Thuộc tính tùy chọn cho UnicodeDecodeWithOffsets |
Hằng số
Sợi dây | OP_NAME | Tên của op này, được biết đến bởi công cụ lõi TensorFlow |
Phương pháp công cộng
Đầu ra < TInt64 > | charToByteStarts () Tensor int32 1D chứa chỉ mục byte trong chuỗi đầu vào trong đó mỗi ký tự trong `char_values` bắt đầu. |
Đầu ra < TInt32 > | giá trị char () Tensor 1D int32 chứa các điểm mã được giải mã. |
UnicodeDecodeWithOffsets tĩnh < TInt64 > | |
tĩnh <T mở rộng TNumber > UnicodeDecodeWithOffsets <T> | tạo ( Phạm vi phạm vi , đầu vào Toán hạng < TString >, Mã hóa đầu vào chuỗi, Lớp <T> Tsplits, Tùy chọn... ) Phương thức gốc để tạo một lớp bao bọc thao tác UnicodeDecodeWithOffsets mới. |
UnicodeDecodeWithOffsets.Options tĩnh | lỗi (Lỗi chuỗi) |
UnicodeDecodeWithOffsets.Options tĩnh | thay thếControlCharacters (Boolean thay thếControlCharacters) |
UnicodeDecodeWithOffsets.Options tĩnh | thay thếChar (Char thay thế dài) |
Đầu ra <T> | rowSplits () Một tenxơ int32 1D chứa các hàng được chia tách. |
Phương pháp kế thừa
Hằng số
Chuỗi cuối cùng tĩnh công khai OP_NAME
Tên của op này, được biết đến bởi công cụ lõi TensorFlow
Phương pháp công cộng
Đầu ra công khai < TInt64 > charToByteStarts ()
Tensor int32 1D chứa chỉ mục byte trong chuỗi đầu vào trong đó mỗi ký tự trong `char_values` bắt đầu.
public static UnicodeDecodeWithOffsets < TInt64 > tạo ( Phạm vi phạm vi, đầu vào Toán hạng < TString >, Mã hóa đầu vào chuỗi, Tùy chọn... )
Phương thức gốc để tạo một lớp bao bọc thao tác UnicodeDecodeWithOffsets mới bằng cách sử dụng các loại đầu ra mặc định.
Thông số
phạm vi | phạm vi hiện tại |
---|---|
đầu vào | Văn bản cần được giải mã. Có thể có bất kỳ hình dạng. Lưu ý rằng đầu ra được làm phẳng thành một vectơ có giá trị char. |
mã hóa đầu vào | Mã hóa văn bản của chuỗi đầu vào. Đây là bất kỳ mã hóa nào được hỗ trợ bởi bộ chuyển đổi thuật toán ucnv của ICU. Ví dụ: `"UTF-16", "US ASCII", "UTF-8"`. |
tùy chọn | mang các giá trị thuộc tính tùy chọn |
Trả lại
- một phiên bản mới của UnicodeDecodeWithOffsets
public static UnicodeDecodeWithOffsets <T> create ( Phạm vi phạm vi , đầu vào Toán hạng < TString >, String inputEncoding, Class<T> Tsplits, Tùy chọn... tùy chọn)
Phương thức gốc để tạo một lớp bao bọc thao tác UnicodeDecodeWithOffsets mới.
Thông số
phạm vi | phạm vi hiện tại |
---|---|
đầu vào | Văn bản cần được giải mã. Có thể có bất kỳ hình dạng. Lưu ý rằng đầu ra được làm phẳng thành một vectơ có giá trị char. |
mã hóa đầu vào | Mã hóa văn bản của chuỗi đầu vào. Đây là bất kỳ mã hóa nào được hỗ trợ bởi bộ chuyển đổi thuật toán ucnv của ICU. Ví dụ: `"UTF-16", "US ASCII", "UTF-8"`. |
tùy chọn | mang các giá trị thuộc tính tùy chọn |
Trả lại
- một phiên bản mới của UnicodeDecodeWithOffsets
lỗi UnicodeDecodeWithOffsets.Options tĩnh công khai (Lỗi chuỗi)
Thông số
lỗi | Chính sách xử lý lỗi khi tìm thấy định dạng không hợp lệ trong đầu vào. Giá trị 'nghiêm ngặt' sẽ khiến thao tác tạo ra lỗi InvalidArgument trên bất kỳ định dạng đầu vào không hợp lệ nào. Giá trị 'thay thế' (mặc định) sẽ khiến thao tác thay thế mọi định dạng không hợp lệ trong đầu vào bằng điểm mã `replacement_char`. Giá trị 'bỏ qua' sẽ khiến thao tác bỏ qua mọi định dạng không hợp lệ trong đầu vào và không tạo ra ký tự đầu ra tương ứng. |
---|
UnicodeDecodeWithOffsets.Options thay thếControlCharacters tĩnh công khai (Boolean thayControlCharacters)
Thông số
ký tự điều khiển thay thế | Có thay thế các ký tự điều khiển C0 (00-1F) bằng `replacement_char` hay không. Mặc định là sai. |
---|
Unicode tĩnh công khaiDecodeWithOffsets.Options thay thếChar (Char thay thế dài)
Thông số
thay thếChar | Điểm mã ký tự thay thế sẽ được sử dụng thay cho bất kỳ định dạng không hợp lệ nào trong đầu vào khi `errors='replace'`. Bất kỳ điểm mã unicode hợp lệ nào cũng có thể được sử dụng. Giá trị mặc định là ký tự thay thế unicode mặc định là 0xFFFD hoặc U+65533.) |
---|