GenerateVocabRemapping

GenerateVocabRemapping คลาสสุดท้ายสาธารณะ

กำหนดเส้นทางไปยังไฟล์คำศัพท์ทั้งเก่าและใหม่ ส่งคืน Tensor ของการแมปใหม่

ความยาว `num_new_vocab` โดยที่ `remapping[i]` มีหมายเลขแถวในคำศัพท์เก่าที่สอดคล้องกับแถว `i` ในคำศัพท์ใหม่ (เริ่มต้นที่บรรทัด `new_vocab_offset` และไปจนถึงเอนทิตี `num_new_vocab`) หรือ `- 1` ถ้ารายการ `i` ในคำศัพท์ใหม่ไม่ได้อยู่ในคำศัพท์เก่า คำศัพท์เก่าจะถูกจำกัดไว้ที่รายการ `old_vocab_size` รายการแรก หาก `old_vocab_size` ไม่ใช่ค่าเริ่มต้นที่ -1

`num_vocab_offset` เปิดใช้งานในกรณีของตัวแปรที่แบ่งพาร์ติชัน และโดยทั่วไปควรตั้งค่าผ่านการตรวจสอบข้อมูลการแบ่งพาร์ติชัน รูปแบบของไฟล์ควรเป็นไฟล์ข้อความ โดยแต่ละบรรทัดจะมีรายการเดียวภายในคำศัพท์

ตัวอย่างเช่น สำหรับ `new_vocab_file` ไฟล์ข้อความที่ประกอบด้วยแต่ละองค์ประกอบต่อไปนี้ในบรรทัดเดียว: `[f0, f1, f2, f3]`, old_vocab_file = [f1, f0, f3], `num_new_vocab = 3, new_vocab_offset = 1` การแมปที่ส่งคืนจะเป็น `[0, -1, 2]`

op ยังส่งคืนการนับจำนวนรายการในคำศัพท์ใหม่ที่มีอยู่ในคำศัพท์เก่า ซึ่งใช้ในการคำนวณจำนวนค่าที่จะเริ่มต้นในการแมปเมทริกซ์น้ำหนักใหม่

ฟังก์ชันนี้สามารถใช้เพื่อรีแมปคำศัพท์ทั้งแถว (โดยทั่วไปคือฟีเจอร์) และคำศัพท์คอลัมน์ (โดยทั่วไปคือคลาส) จากจุดตรวจสอบ TensorFlow โปรดทราบว่าตรรกะการแบ่งพาร์ติชันอาศัยคำศัพท์ที่ต่อเนื่องกันซึ่งสอดคล้องกับตัวแปรที่แบ่งพาร์ติชัน div ยิ่งไปกว่านั้น การรีแมปพื้นฐานใช้ IndexTable (ซึ่งตรงข้ามกับ CuckooTable ที่ไม่แน่นอน) ดังนั้นโค้ดไคลเอ็นต์ควรใช้ index_table_from_file() ที่สอดคล้องกันดังที่เฟรมเวิร์ก FeatureColumn ทำ (ตรงข้ามกับ tf.feature_to_id() ซึ่งใช้ CuckooTable)

คลาสที่ซ้อนกัน

ระดับ สร้าง VocabRemapping.Options แอ็ตทริบิวต์ทางเลือกสำหรับ GenerateVocabRemapping

ค่าคงที่

สตริง OP_NAME ชื่อของ op นี้ ซึ่งรู้จักกันในชื่อของเอ็นจิ้นหลัก TensorFlow

วิธีการสาธารณะ

GenerateVocabRemapping แบบคงที่
สร้าง ( ขอบเขต ขอบเขต ตัวดำเนินการ < TString > newVocabFile, ตัวดำเนินการ < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, ตัวเลือก... ตัวเลือก)
วิธีการจากโรงงานเพื่อสร้างคลาสที่รวมการดำเนินการ GenerateVocabRemapping ใหม่
เอาท์พุต < TInt32 >
จำนวนปัจจุบัน ()
จำนวนคำศัพท์ใหม่ที่พบในคำศัพท์เก่า
GenerateVocabRemapping.Options แบบคงที่
oldVocabSize (ยาว oldVocabSize)
เอาท์พุต <TInt64>
การแมปใหม่ ()
เทนเซอร์ที่มีความยาว num_new_vocab โดยที่องค์ประกอบที่ดัชนี i เท่ากับ ID เก่าที่จับคู่กับ ID ใหม่ i

วิธีการสืบทอด

ค่าคงที่

สตริงสุดท้ายแบบคงที่สาธารณะ OP_NAME

ชื่อของ op นี้ ซึ่งรู้จักกันในชื่อของเอ็นจิ้นหลัก TensorFlow

ค่าคงที่: "สร้าง VocabRemapping"

วิธีการสาธารณะ

สร้าง GenerateVocabRemapping แบบคงที่สาธารณะ (ขอบเขต ขอบเขต ตัวดำเนินการ < TString > newVocabFile, ตัวดำเนินการ < TString > oldVocabFile, ยาว newVocabOffset, ยาว numNewVocab, ตัวเลือก... ตัวเลือก)

วิธีการจากโรงงานเพื่อสร้างคลาสที่รวมการดำเนินการ GenerateVocabRemapping ใหม่

พารามิเตอร์
ขอบเขต ขอบเขตปัจจุบัน
newVocabFile เส้นทางไปยังไฟล์คำศัพท์ใหม่
oldVocabFile เส้นทางไปยังไฟล์คำศัพท์เก่า
newVocabOffset จำนวนรายการในไฟล์คำศัพท์ใหม่เพื่อเริ่มอ่าน
numNewVocab จำนวนรายการในไฟล์คำศัพท์ใหม่ที่จะทำการแมปใหม่
ตัวเลือก มีค่าแอตทริบิวต์ทางเลือก
การส่งคืน
  • อินสแตนซ์ใหม่ของ GenerateVocabRemapping

เอาท์พุท สาธารณะ <TInt32> numPresent ()

จำนวนรายการคำศัพท์ใหม่ที่พบในคำศัพท์เก่า

สาธารณะคง GenerateVocabRemapping.Options oldVocabSize (เก่า VocabSize ยาว)

พารามิเตอร์
oldVocabSize จำนวนรายการในไฟล์คำศัพท์เก่าที่ต้องพิจารณา ถ้า -1 ให้ใช้คำศัพท์เก่าทั้งหมด

เอาต์พุต สาธารณะ <TInt64> การแมปใหม่ ()

เทนเซอร์ที่มีความยาว num_new_vocab โดยที่องค์ประกอบที่ดัชนี i เท่ากับ ID เก่าที่จับคู่กับ ID ใหม่ i องค์ประกอบนี้คือ -1 สำหรับ ID ใหม่ใดๆ ที่ไม่พบในคำศัพท์เก่า