คำเตือน: API นี้เลิกใช้งานแล้วและจะถูกลบออกใน TensorFlow เวอร์ชันในอนาคตหลังจาก การแทนที่ เสถียรแล้ว

UnicodeDecode

ประชาชน UnicodeDecode ชั้นสุดท้าย

ถอดรหัสแต่ละสตริงใน "อินพุต" เป็นลำดับของจุดโค้ด Unicode

โค้ดพอยท์ของอักขระสำหรับสตริงทั้งหมดจะถูกส่งคืนโดยใช้เวกเตอร์ `char_values` โดยที่สตริงจะขยายเป็นอักขระในลำดับหลักแถว

เทนเซอร์ `row_splits` ระบุว่าโค้ดพอยท์สำหรับสตริงอินพุตแต่ละรายการเริ่มต้นและสิ้นสุดภายในเทนเซอร์ `char_values` ที่ใด โดยเฉพาะอย่างยิ่ง ค่าสำหรับ `สตริงที่ i (ในลำดับหลักแถว) จะถูกเก็บไว้ในสไลซ์ `[row_splits[i]:row_splits[i+1]]` ดังนั้น:

  • `char_values[row_splits[i]+j]` คือโค้ดพอยท์ Unicode สำหรับอักขระ `j`th ในสตริง `i`th (ในลำดับหลักแถว)
  • `row_splits[i+1] - row_splits[i]` คือจำนวนอักขระในสตริง `i`th (ในลำดับหลักแถว)

คลาสที่ซ้อนกัน

ระดับ UnicodeDecode.Options คุณลักษณะที่จำเป็นสำหรับการ UnicodeDecode

วิธีการสาธารณะ

เอาท์พุท <Integer>
charValues ()
1D int32 Tensor ที่มี codepoint ที่ถอดรหัสแล้ว
คง <T ขยายจำนวน> UnicodeDecode <T>
สร้าง ( ขอบเขต ขอบเขต Operand <String> การป้อนข้อมูล String inputEncoding ชั้น <T> Tsplits, ตัวเลือก ... ตัวเลือก)
วิธีการจากโรงงานเพื่อสร้างคลาสที่ปิดการดำเนินการ UnicodeDecode ใหม่
คง UnicodeDecode <ยาว>
สร้าง ( ขอบเขต ขอบเขต Operand <String> การป้อนข้อมูล String inputEncoding, ตัวเลือก ... ตัวเลือก)
วิธีการจากโรงงานเพื่อสร้างคลาสที่ปิดการดำเนินการ UnicodeDecode ใหม่โดยใช้ประเภทเอาต์พุตเริ่มต้น
คง UnicodeDecode.Options
ข้อผิดพลาด (ข้อผิดพลาด String)
คง UnicodeDecode.Options
replaceControlCharacters (replaceControlCharacters บูลีน)
คง UnicodeDecode.Options
replacementChar (Long replacementChar)
เอาท์พุท <T>
rowSplits ()
เทนเซอร์ 1D int32 ที่มีการแยกแถว

วิธีการสืบทอด

วิธีการสาธารณะ

ประชาชน เอาท์พุท <Integer> charValues ()

1D int32 Tensor ที่มี codepoint ที่ถอดรหัสแล้ว

สาธารณะคง UnicodeDecode <T> สร้าง ( ขอบเขต ขอบเขต Operand <String> การป้อนข้อมูล String inputEncoding ชั้น <T> Tsplits, ตัวเลือก ... ตัวเลือก)

วิธีการจากโรงงานเพื่อสร้างคลาสที่ปิดการดำเนินการ UnicodeDecode ใหม่

พารามิเตอร์
ขอบเขต ขอบเขตปัจจุบัน
ป้อนข้อมูล ข้อความที่จะถอดรหัส มีรูปร่างอะไรก็ได้ โปรดทราบว่าผลลัพธ์จะถูกทำให้แบนเป็นเวกเตอร์ของค่าถ่าน
อินพุตการเข้ารหัส การเข้ารหัสข้อความของสตริงอินพุต นี่คือการเข้ารหัสใด ๆ ที่สนับสนุนโดยตัวแปลงอัลกอริธึม ICU ucnv ตัวอย่าง: `"UTF-16", "US ASCII", "UTF-8"`
ตัวเลือก ดำเนินการค่าแอตทริบิวต์ทางเลือก
คืนสินค้า
  • อินสแตนซ์ใหม่ของ UnicodeDecode

สาธารณะคง UnicodeDecode <ยาว> สร้าง ( ขอบเขต ขอบเขต Operand <String> การป้อนข้อมูล String inputEncoding, ตัวเลือก ... ตัวเลือก)

วิธีการจากโรงงานเพื่อสร้างคลาสที่ปิดการดำเนินการ UnicodeDecode ใหม่โดยใช้ประเภทเอาต์พุตเริ่มต้น

พารามิเตอร์
ขอบเขต ขอบเขตปัจจุบัน
ป้อนข้อมูล ข้อความที่จะถอดรหัส มีรูปร่างอะไรก็ได้ โปรดทราบว่าผลลัพธ์จะถูกทำให้แบนเป็นเวกเตอร์ของค่าถ่าน
อินพุตการเข้ารหัส การเข้ารหัสข้อความของสตริงอินพุต นี่คือการเข้ารหัสใด ๆ ที่สนับสนุนโดยตัวแปลงอัลกอริธึม ICU ucnv ตัวอย่าง: `"UTF-16", "US ASCII", "UTF-8"`
ตัวเลือก ดำเนินการค่าแอตทริบิวต์ทางเลือก
คืนสินค้า
  • อินสแตนซ์ใหม่ของ UnicodeDecode

สาธารณะคง UnicodeDecode.Options ข้อผิดพลาด (ข้อผิดพลาด String)

พารามิเตอร์
ข้อผิดพลาด เกิดข้อผิดพลาดในการจัดการนโยบายเมื่อพบการจัดรูปแบบที่ไม่ถูกต้องในอินพุต ค่าของ 'เข้มงวด' จะทำให้การดำเนินการสร้างข้อผิดพลาด InvalidArgument ในการจัดรูปแบบอินพุตที่ไม่ถูกต้อง ค่า "replace" (ค่าเริ่มต้น) จะทำให้การดำเนินการแทนที่การจัดรูปแบบที่ไม่ถูกต้องในอินพุตด้วยจุดโค้ด "replacement_char" ค่า 'ละเว้น' จะทำให้การดำเนินการข้ามการจัดรูปแบบที่ไม่ถูกต้องในอินพุต และสร้างอักขระเอาต์พุตที่ไม่สอดคล้องกัน

สาธารณะคง UnicodeDecode.Options replaceControlCharacters (replaceControlCharacters บูลีน)

พารามิเตอร์
แทนที่ControlCharacters จะแทนที่อักขระควบคุม C0 (00-1F) ด้วย `replacement_char` หรือไม่ ค่าเริ่มต้นเป็นเท็จ

สาธารณะคง UnicodeDecode.Options replacementChar (Long replacementChar)

พารามิเตอร์
เปลี่ยนChar จุดโค้ดอักขระแทนที่ที่จะใช้แทนการจัดรูปแบบที่ไม่ถูกต้องในอินพุตเมื่อ `errors='replace'` สามารถใช้จุดรหัสยูนิโค้ดที่ถูกต้องได้ ค่าเริ่มต้นคืออักขระแทนที่ยูนิโค้ดเริ่มต้นคือ 0xFFFD หรือ U+65533)

ประชาชน เอาท์พุท <T> rowSplits ()

เทนเซอร์ 1D int32 ที่มีการแยกแถว