ถอดรหัสแต่ละสตริงใน "อินพุต" ให้เป็นลำดับของจุดโค้ด Unicode
จุดโค้ดอักขระสำหรับสตริงทั้งหมดจะถูกส่งกลับโดยใช้เวกเตอร์เดี่ยว `char_values` โดยขยายสตริงเป็นอักขระในลำดับหลักแถว ในทำนองเดียวกัน การชดเชยไบต์เริ่มต้นอักขระจะถูกส่งกลับโดยใช้เวกเตอร์เดียว `char_to_byte_starts` โดยมีการขยายสตริงตามลำดับแถวหลัก
เทนเซอร์ `row_splits` ระบุตำแหน่งที่จุดรหัสและออฟเซ็ตเริ่มต้นสำหรับสตริงอินพุตแต่ละรายการเริ่มต้นและสิ้นสุดภายในเทนเซอร์ `char_values` และ `char_to_byte_starts` โดยเฉพาะอย่างยิ่ง ค่าสำหรับ `สตริงที่ i` (ตามลำดับแถวหลัก) จะถูกจัดเก็บไว้ในสไลซ์ `[row_splits[i]:row_splits[i+1]]` ดังนั้น:
- `char_values[row_splits[i]+j]` คือจุดโค้ด Unicode สำหรับอักขระตัวที่ 'j` ในสตริง `i` (ตามลำดับแถวหลัก)
- `char_to_bytes_starts[row_splits[i]+j]` คือออฟเซ็ตไบต์เริ่มต้นสำหรับอักขระตัวที่ `j` ในสตริง `i` (ตามลำดับแถวหลัก)
- `row_splits[i+1] - row_splits[i]` คือจำนวนอักขระในสตริงที่ 'i` (เรียงลำดับตามแถวหลัก)
คลาสที่ซ้อนกัน
| ระดับ | UnicodeDecodeWithOffsets.Options | แอ็ตทริบิวต์ทางเลือกสำหรับ UnicodeDecodeWithOffsets | |
ค่าคงที่
| สตริง | OP_NAME | ชื่อของ op นี้ ซึ่งรู้จักกันในชื่อของเอ็นจิ้นหลัก TensorFlow | 
วิธีการสาธารณะ
| เอาท์พุต <TInt64> |  charToByteStarts ()  เทนเซอร์ 1D int32 ที่มีดัชนีไบต์ในสตริงอินพุตโดยที่อักขระแต่ละตัวใน `char_values` เริ่มต้น | 
| เอาท์พุต < TInt32 > |  ค่าถ่าน ()  เทนเซอร์ 1D int32 ที่มีจุดรหัสที่ถอดรหัส | 
| UnicodeDecodeWithOffsets แบบคงที่ < TInt64 > |  สร้าง ( ขอบเขต ขอบเขต ตัวดำเนินการ < TString > อินพุต สตริง inputEncoding ตัวเลือก... ตัวเลือก)  วิธีการจากโรงงานเพื่อสร้างคลาสที่รวมการดำเนินการ UnicodeDecodeWithOffsets ใหม่โดยใช้ประเภทเอาต์พุตเริ่มต้น | 
| คงที่ <T ขยาย TNumber > UnicodeDecodeWithOffsets <T> |  สร้าง (ขอบเขต ขอบเขต ตัวดำเนินการ < TString > อินพุต สตริง inputEncoding คลาส<T> Tsplits ตัวเลือก... ตัวเลือก)  วิธีการจากโรงงานเพื่อสร้างคลาสที่รวมการดำเนินการ UnicodeDecodeWithOffsets ใหม่ | 
| UnicodeDecodeWithOffsets.Options แบบคงที่ |  ข้อผิดพลาด (ข้อผิดพลาดสตริง) | 
| UnicodeDecodeWithOffsets.Options แบบคงที่ |  แทนที่ControlCharacters (บูลีนแทนที่ControlCharacters) | 
| UnicodeDecodeWithOffsets.Options แบบคงที่ |  replacementChar (ถ่านทดแทนแบบยาว) | 
| เอาท์พุต <T> |  แถวแยก ()  เทนเซอร์ 1D int32 ที่มีการแยกแถว  | 
วิธีการสืบทอด
ค่าคงที่
สตริงสุดท้ายแบบคงที่สาธารณะ OP_NAME
ชื่อของ op นี้ ซึ่งรู้จักกันในชื่อของเอ็นจิ้นหลัก TensorFlow
วิธีการสาธารณะ
เอาท์พุท สาธารณะ <TInt64> charToByteStarts ()
เทนเซอร์ 1D int32 ที่มีดัชนีไบต์ในสตริงอินพุตโดยที่อักขระแต่ละตัวใน `char_values` เริ่มต้น
UnicodeDecodeWithOffsets แบบคงที่สาธารณะ < TInt64 > สร้าง ( ขอบเขตขอบเขต ตัวดำเนินการ < TString > อินพุต สตริง inputEncoding ตัวเลือก... ตัวเลือก)
วิธีการจากโรงงานเพื่อสร้างคลาสที่รวมการดำเนินการ UnicodeDecodeWithOffsets ใหม่โดยใช้ประเภทเอาต์พุตเริ่มต้น
พารามิเตอร์
| ขอบเขต | ขอบเขตปัจจุบัน | 
|---|---|
| ป้อนข้อมูล | ข้อความที่จะถอดรหัส จะมีรูปร่างแบบไหนก็ได้ โปรดทราบว่าเอาต์พุตจะแบนเป็นเวกเตอร์ที่มีค่าถ่าน | 
| การเข้ารหัสอินพุต | การเข้ารหัสข้อความของสตริงอินพุต นี่คือการเข้ารหัสใดๆ ที่สนับสนุนโดยตัวแปลงอัลกอริทึม ucnv ของ ICU ตัวอย่าง: `"UTF-16", "US ASCII", "UTF-8"` | 
| ตัวเลือก | มีค่าแอตทริบิวต์ทางเลือก | 
การส่งคืน
- อินสแตนซ์ใหม่ของ UnicodeDecodeWithOffsets
สร้าง UnicodeDecodeWithOffsets <T> แบบคงที่สาธารณะ ( ขอบเขตขอบเขต ตัวดำเนินการ < TString > อินพุต สตริง inputEncoding คลาส <T> Tsplits ตัวเลือก... ตัวเลือก)
วิธีการจากโรงงานเพื่อสร้างคลาสที่รวมการดำเนินการ UnicodeDecodeWithOffsets ใหม่
พารามิเตอร์
| ขอบเขต | ขอบเขตปัจจุบัน | 
|---|---|
| ป้อนข้อมูล | ข้อความที่จะถอดรหัส จะมีรูปร่างแบบไหนก็ได้ โปรดทราบว่าเอาต์พุตจะแบนเป็นเวกเตอร์ที่มีค่าถ่าน | 
| การเข้ารหัสอินพุต | การเข้ารหัสข้อความของสตริงอินพุต นี่คือการเข้ารหัสใดๆ ที่สนับสนุนโดยตัวแปลงอัลกอริทึม ucnv ของ ICU ตัวอย่าง: `"UTF-16", "US ASCII", "UTF-8"` | 
| ตัวเลือก | มีค่าแอตทริบิวต์ทางเลือก | 
การส่งคืน
- อินสแตนซ์ใหม่ของ UnicodeDecodeWithOffsets
ข้อผิดพลาด UnicodeDecodeWithOffsets.Options สาธารณะแบบคงที่ (ข้อผิดพลาดสตริง)
พารามิเตอร์
| ข้อผิดพลาด | นโยบายการจัดการข้อผิดพลาดเมื่อพบการจัดรูปแบบที่ไม่ถูกต้องในอินพุต ค่า 'เข้มงวด' จะทำให้การดำเนินการสร้างข้อผิดพลาด InvalidArgument ในการจัดรูปแบบอินพุตที่ไม่ถูกต้อง ค่า 'แทนที่' (ค่าเริ่มต้น) จะทำให้การดำเนินการแทนที่การจัดรูปแบบที่ไม่ถูกต้องในอินพุตด้วยจุดโค้ด `replacement_char` ค่า 'ละเว้น' จะทำให้การดำเนินการข้ามการจัดรูปแบบที่ไม่ถูกต้องในอินพุต และไม่มีอักขระเอาต์พุตที่สอดคล้องกัน | 
|---|
UnicodeDecodeWithOffsets แบบคงที่สาธารณะ ตัวเลือกแทนที่ControlCharacters (บูลีนแทนที่ControlCharacters)
พารามิเตอร์
| แทนที่ControlCharacters | ว่าจะแทนที่อักขระควบคุม C0 (00-1F) ด้วย `replacement_char` หรือไม่ ค่าเริ่มต้นเป็นเท็จ | 
|---|
สาธารณะ UnicodeDecodeWithOffsets.Options replacementChar แบบคงที่ (Long replacementChar)
พารามิเตอร์
| ทดแทนChar | จุดโค้ดอักขระทดแทนที่จะใช้แทนการจัดรูปแบบที่ไม่ถูกต้องในอินพุตเมื่อ `errors='replace'' สามารถใช้จุดโค้ดยูนิโค้ดที่ถูกต้องได้ ค่าเริ่มต้นคืออักขระแทนที่ Unicode เริ่มต้นคือ 0xFFFD หรือ U+65533) | 
|---|