UnicodeDecodeWithOffsets

UnicodeDecodeWithOffsets คลาสสุดท้ายสาธารณะ

ถอดรหัสแต่ละสตริงใน "อินพุต" ให้เป็นลำดับของจุดโค้ด Unicode

จุดโค้ดอักขระสำหรับสตริงทั้งหมดจะถูกส่งกลับโดยใช้เวกเตอร์เดี่ยว `char_values` โดยขยายสตริงเป็นอักขระในลำดับหลักแถว ในทำนองเดียวกัน การชดเชยไบต์เริ่มต้นอักขระจะถูกส่งกลับโดยใช้เวกเตอร์เดียว `char_to_byte_starts` โดยมีการขยายสตริงตามลำดับแถวหลัก

เทนเซอร์ `row_splits` ระบุตำแหน่งที่จุดรหัสและออฟเซ็ตเริ่มต้นสำหรับสตริงอินพุตแต่ละรายการเริ่มต้นและสิ้นสุดภายในเทนเซอร์ `char_values` และ `char_to_byte_starts` โดยเฉพาะอย่างยิ่ง ค่าสำหรับ `สตริงที่ i` (ตามลำดับแถวหลัก) จะถูกจัดเก็บไว้ในสไลซ์ `[row_splits[i]:row_splits[i+1]]` ดังนั้น:

  • `char_values[row_splits[i]+j]` คือจุดโค้ด Unicode สำหรับอักขระตัวที่ 'j` ในสตริง `i` (ตามลำดับแถวหลัก)
  • `char_to_bytes_starts[row_splits[i]+j]` คือออฟเซ็ตไบต์เริ่มต้นสำหรับอักขระตัวที่ `j` ในสตริง `i` (ตามลำดับแถวหลัก)
  • `row_splits[i+1] - row_splits[i]` คือจำนวนอักขระในสตริงที่ 'i` (เรียงลำดับตามแถวหลัก)

คลาสที่ซ้อนกัน

ระดับ UnicodeDecodeWithOffsets.Options แอ็ตทริบิวต์ทางเลือกสำหรับ UnicodeDecodeWithOffsets

ค่าคงที่

สตริง OP_NAME ชื่อของ op นี้ ซึ่งรู้จักกันในชื่อของเอ็นจิ้นหลัก TensorFlow

วิธีการสาธารณะ

เอาท์พุต <TInt64>
charToByteStarts ()
เทนเซอร์ 1D int32 ที่มีดัชนีไบต์ในสตริงอินพุตโดยที่อักขระแต่ละตัวใน `char_values` เริ่มต้น
เอาท์พุต < TInt32 >
ค่าถ่าน ()
เทนเซอร์ 1D int32 ที่มีจุดรหัสที่ถอดรหัส
UnicodeDecodeWithOffsets แบบคงที่ < TInt64 >
สร้าง ( ขอบเขต ขอบเขต ตัวดำเนินการ < TString > อินพุต สตริง inputEncoding ตัวเลือก... ตัวเลือก)
วิธีการจากโรงงานเพื่อสร้างคลาสที่รวมการดำเนินการ UnicodeDecodeWithOffsets ใหม่โดยใช้ประเภทเอาต์พุตเริ่มต้น
คงที่ <T ขยาย TNumber > UnicodeDecodeWithOffsets <T>
สร้าง (ขอบเขต ขอบเขต ตัวดำเนินการ < TString > อินพุต สตริง inputEncoding คลาส<T> Tsplits ตัวเลือก... ตัวเลือก)
วิธีการจากโรงงานเพื่อสร้างคลาสที่รวมการดำเนินการ UnicodeDecodeWithOffsets ใหม่
UnicodeDecodeWithOffsets.Options แบบคงที่
ข้อผิดพลาด (ข้อผิดพลาดสตริง)
UnicodeDecodeWithOffsets.Options แบบคงที่
แทนที่ControlCharacters (บูลีนแทนที่ControlCharacters)
UnicodeDecodeWithOffsets.Options แบบคงที่
replacementChar (ถ่านทดแทนแบบยาว)
เอาท์พุต <T>
แถวแยก ()
เทนเซอร์ 1D int32 ที่มีการแยกแถว

วิธีการสืบทอด

ค่าคงที่

สตริงสุดท้ายแบบคงที่สาธารณะ OP_NAME

ชื่อของ op นี้ ซึ่งรู้จักกันในชื่อของเอ็นจิ้นหลัก TensorFlow

ค่าคงที่: "UnicodeDecodeWithOffsets"

วิธีการสาธารณะ

เอาท์พุท สาธารณะ <TInt64> charToByteStarts ()

เทนเซอร์ 1D int32 ที่มีดัชนีไบต์ในสตริงอินพุตโดยที่อักขระแต่ละตัวใน `char_values` เริ่มต้น

เอาท์ พุท สาธารณะ <TInt32> charValues ​​()

เทนเซอร์ 1D int32 ที่มีจุดรหัสที่ถอดรหัส

UnicodeDecodeWithOffsets แบบคงที่สาธารณะ < TInt64 > สร้าง ( ขอบเขตขอบเขต ตัวดำเนินการ < TString > อินพุต สตริง inputEncoding ตัวเลือก... ตัวเลือก)

วิธีการจากโรงงานเพื่อสร้างคลาสที่รวมการดำเนินการ UnicodeDecodeWithOffsets ใหม่โดยใช้ประเภทเอาต์พุตเริ่มต้น

พารามิเตอร์
ขอบเขต ขอบเขตปัจจุบัน
ป้อนข้อมูล ข้อความที่จะถอดรหัส จะมีรูปร่างแบบไหนก็ได้ โปรดทราบว่าเอาต์พุตจะแบนเป็นเวกเตอร์ที่มีค่าถ่าน
การเข้ารหัสอินพุต การเข้ารหัสข้อความของสตริงอินพุต นี่คือการเข้ารหัสใดๆ ที่สนับสนุนโดยตัวแปลงอัลกอริทึม ucnv ของ ICU ตัวอย่าง: `"UTF-16", "US ASCII", "UTF-8"`
ตัวเลือก มีค่าแอตทริบิวต์ทางเลือก
การส่งคืน
  • อินสแตนซ์ใหม่ของ UnicodeDecodeWithOffsets

สร้าง UnicodeDecodeWithOffsets <T> แบบคงที่สาธารณะ ( ขอบเขตขอบเขต ตัวดำเนินการ < TString > อินพุต สตริง inputEncoding คลาส <T> Tsplits ตัวเลือก... ตัวเลือก)

วิธีการจากโรงงานเพื่อสร้างคลาสที่รวมการดำเนินการ UnicodeDecodeWithOffsets ใหม่

พารามิเตอร์
ขอบเขต ขอบเขตปัจจุบัน
ป้อนข้อมูล ข้อความที่จะถอดรหัส จะมีรูปร่างแบบไหนก็ได้ โปรดทราบว่าเอาต์พุตจะแบนเป็นเวกเตอร์ที่มีค่าถ่าน
การเข้ารหัสอินพุต การเข้ารหัสข้อความของสตริงอินพุต นี่คือการเข้ารหัสใดๆ ที่สนับสนุนโดยตัวแปลงอัลกอริทึม ucnv ของ ICU ตัวอย่าง: `"UTF-16", "US ASCII", "UTF-8"`
ตัวเลือก มีค่าแอตทริบิวต์ทางเลือก
การส่งคืน
  • อินสแตนซ์ใหม่ของ UnicodeDecodeWithOffsets

ข้อผิดพลาด UnicodeDecodeWithOffsets.Options สาธารณะแบบคงที่ (ข้อผิดพลาดสตริง)

พารามิเตอร์
ข้อผิดพลาด นโยบายการจัดการข้อผิดพลาดเมื่อพบการจัดรูปแบบที่ไม่ถูกต้องในอินพุต ค่า 'เข้มงวด' จะทำให้การดำเนินการสร้างข้อผิดพลาด InvalidArgument ในการจัดรูปแบบอินพุตที่ไม่ถูกต้อง ค่า 'แทนที่' (ค่าเริ่มต้น) จะทำให้การดำเนินการแทนที่การจัดรูปแบบที่ไม่ถูกต้องในอินพุตด้วยจุดโค้ด `replacement_char` ค่า 'ละเว้น' จะทำให้การดำเนินการข้ามการจัดรูปแบบที่ไม่ถูกต้องในอินพุต และไม่มีอักขระเอาต์พุตที่สอดคล้องกัน

UnicodeDecodeWithOffsets แบบคงที่สาธารณะ ตัวเลือกแทนที่ControlCharacters (บูลีนแทนที่ControlCharacters)

พารามิเตอร์
แทนที่ControlCharacters ว่าจะแทนที่อักขระควบคุม C0 (00-1F) ด้วย `replacement_char` หรือไม่ ค่าเริ่มต้นเป็นเท็จ

สาธารณะ UnicodeDecodeWithOffsets.Options replacementChar แบบคงที่ (Long replacementChar)

พารามิเตอร์
ทดแทนChar จุดโค้ดอักขระทดแทนที่จะใช้แทนการจัดรูปแบบที่ไม่ถูกต้องในอินพุตเมื่อ `errors='replace'' สามารถใช้จุดโค้ดยูนิโค้ดที่ถูกต้องได้ ค่าเริ่มต้นคืออักขระแทนที่ Unicode เริ่มต้นคือ 0xFFFD หรือ U+65533)

เอาท์พุท สาธารณะ <T> rowSplits ()

เทนเซอร์ 1D int32 ที่มีการแยกแถว