กำหนดเส้นทางไปยังไฟล์คำศัพท์ทั้งเก่าและใหม่ ส่งคืน Tensor ของการแมปใหม่
ความยาว `num_new_vocab` โดยที่ `remapping[i]` มีหมายเลขแถวในคำศัพท์เก่าที่สอดคล้องกับแถว `i` ในคำศัพท์ใหม่ (เริ่มต้นที่บรรทัด `new_vocab_offset` และไปจนถึงเอนทิตี `num_new_vocab`) หรือ `- 1` ถ้ารายการ `i` ในคำศัพท์ใหม่ไม่ได้อยู่ในคำศัพท์เก่า คำศัพท์เก่าจะถูกจำกัดไว้ที่รายการ `old_vocab_size` รายการแรก หาก `old_vocab_size` ไม่ใช่ค่าเริ่มต้นที่ -1
`num_vocab_offset` เปิดใช้งานในกรณีของตัวแปรที่แบ่งพาร์ติชัน และโดยทั่วไปควรตั้งค่าผ่านการตรวจสอบข้อมูลการแบ่งพาร์ติชัน รูปแบบของไฟล์ควรเป็นไฟล์ข้อความ โดยแต่ละบรรทัดจะมีรายการเดียวภายในคำศัพท์
ตัวอย่างเช่น สำหรับ `new_vocab_file` ไฟล์ข้อความที่ประกอบด้วยแต่ละองค์ประกอบต่อไปนี้ในบรรทัดเดียว: `[f0, f1, f2, f3]`, old_vocab_file = [f1, f0, f3], `num_new_vocab = 3, new_vocab_offset = 1` การแมปที่ส่งคืนจะเป็น `[0, -1, 2]`
op ยังส่งคืนการนับจำนวนรายการในคำศัพท์ใหม่ที่มีอยู่ในคำศัพท์เก่า ซึ่งใช้ในการคำนวณจำนวนค่าที่จะเริ่มต้นในการแมปเมทริกซ์น้ำหนักใหม่
ฟังก์ชันนี้สามารถใช้เพื่อรีแมปคำศัพท์ทั้งแถว (โดยทั่วไปคือฟีเจอร์) และคำศัพท์คอลัมน์ (โดยทั่วไปคือคลาส) จากจุดตรวจสอบ TensorFlow โปรดทราบว่าตรรกะการแบ่งพาร์ติชันอาศัยคำศัพท์ที่ต่อเนื่องกันซึ่งสอดคล้องกับตัวแปรที่แบ่งพาร์ติชัน div ยิ่งไปกว่านั้น การรีแมปพื้นฐานใช้ IndexTable (ซึ่งตรงข้ามกับ CuckooTable ที่ไม่แน่นอน) ดังนั้นโค้ดไคลเอ็นต์ควรใช้ index_table_from_file() ที่สอดคล้องกันดังที่เฟรมเวิร์ก FeatureColumn ทำ (ตรงข้ามกับ tf.feature_to_id() ซึ่งใช้ CuckooTable)
คลาสที่ซ้อนกัน
ระดับ | สร้าง VocabRemapping.Options | แอ็ตทริบิวต์ทางเลือกสำหรับ GenerateVocabRemapping |
ค่าคงที่
สตริง | OP_NAME | ชื่อของ op นี้ ซึ่งรู้จักกันในชื่อของเอ็นจิ้นหลัก TensorFlow |
วิธีการสาธารณะ
GenerateVocabRemapping แบบคงที่ | สร้าง ( ขอบเขต ขอบเขต ตัวดำเนินการ < TString > newVocabFile, ตัวดำเนินการ < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, ตัวเลือก... ตัวเลือก) วิธีการจากโรงงานเพื่อสร้างคลาสที่รวมการดำเนินการ GenerateVocabRemapping ใหม่ |
เอาท์พุต < TInt32 > | จำนวนปัจจุบัน () จำนวนคำศัพท์ใหม่ที่พบในคำศัพท์เก่า |
GenerateVocabRemapping.Options แบบคงที่ | oldVocabSize (ยาว oldVocabSize) |
เอาท์พุต <TInt64> | การแมปใหม่ () เทนเซอร์ที่มีความยาว num_new_vocab โดยที่องค์ประกอบที่ดัชนี i เท่ากับ ID เก่าที่จับคู่กับ ID ใหม่ i |
วิธีการสืบทอด
ค่าคงที่
สตริงสุดท้ายแบบคงที่สาธารณะ OP_NAME
ชื่อของ op นี้ ซึ่งรู้จักกันในชื่อของเอ็นจิ้นหลัก TensorFlow
วิธีการสาธารณะ
สร้าง GenerateVocabRemapping แบบคงที่สาธารณะ (ขอบเขต ขอบเขต ตัวดำเนินการ < TString > newVocabFile, ตัวดำเนินการ < TString > oldVocabFile, ยาว newVocabOffset, ยาว numNewVocab, ตัวเลือก... ตัวเลือก)
วิธีการจากโรงงานเพื่อสร้างคลาสที่รวมการดำเนินการ GenerateVocabRemapping ใหม่
พารามิเตอร์
ขอบเขต | ขอบเขตปัจจุบัน |
---|---|
newVocabFile | เส้นทางไปยังไฟล์คำศัพท์ใหม่ |
oldVocabFile | เส้นทางไปยังไฟล์คำศัพท์เก่า |
newVocabOffset | จำนวนรายการในไฟล์คำศัพท์ใหม่เพื่อเริ่มอ่าน |
numNewVocab | จำนวนรายการในไฟล์คำศัพท์ใหม่ที่จะทำการแมปใหม่ |
ตัวเลือก | มีค่าแอตทริบิวต์ทางเลือก |
การส่งคืน
- อินสแตนซ์ใหม่ของ GenerateVocabRemapping
สาธารณะคง GenerateVocabRemapping.Options oldVocabSize (เก่า VocabSize ยาว)
พารามิเตอร์
oldVocabSize | จำนวนรายการในไฟล์คำศัพท์เก่าที่ต้องพิจารณา ถ้า -1 ให้ใช้คำศัพท์เก่าทั้งหมด |
---|