ร่อน1m

  • คำอธิบาย :

การฝังที่ผ่านการฝึกอบรมล่วงหน้าสำหรับการค้นหาเพื่อนบ้านที่ใกล้ที่สุดโดยประมาณโดยใช้ระยะทางแบบยุคลิด ชุดข้อมูลนี้ประกอบด้วยสองส่วน:

  1. 'ฐานข้อมูล': ประกอบด้วยจุดข้อมูล 1,000,000 จุด แต่ละจุดมีคุณสมบัติ: 'ฝัง' (128 โฟลต), 'ดัชนี' (int64), 'เพื่อนบ้าน' (รายการว่าง)
  2. 'ทดสอบ': ประกอบด้วยจุดข้อมูล 10,000 จุด แต่ละจุดมีคุณสมบัติ: 'ฝัง' (128 ลอย), 'ดัชนี' (int64), 'เพื่อนบ้าน' (รายการของ 'ดัชนี' และ 'ระยะทาง' ของเพื่อนบ้านที่ใกล้ที่สุดในฐานข้อมูล )
แยก ตัวอย่าง
'database' 1,000,000
'test' 10,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'embedding': Tensor(shape=(128,), dtype=float32),
    'index': Scalar(shape=(), dtype=int64),
    'neighbors': Sequence({
        'distance': Scalar(shape=(), dtype=float32),
        'index': Scalar(shape=(), dtype=int64),
    }),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
การฝัง เทนเซอร์ (128,) ลอย32
ดัชนี สเกลาร์ int64 ดัชนีภายในการแบ่ง
เพื่อนบ้าน ลำดับ เพื่อนบ้านที่คำนวณซึ่งมีให้สำหรับการทดสอบแยกเท่านั้น
เพื่อนบ้าน/ระยะห่าง สเกลาร์ ลอย32 ระยะห่างเพื่อนบ้าน.
เพื่อนบ้าน/ดัชนี สเกลาร์ int64 ดัชนีเพื่อนบ้าน
  • การอ้างอิง :
@article{jegou2010product,
  title={Product quantization for nearest neighbor search},
  author={Jegou, Herve and Douze, Matthijs and Schmid, Cordelia},
  journal={IEEE transactions on pattern analysis and machine intelligence},
  volume={33},
  number={1},
  pages={117--128},
  year={2010},
  publisher={IEEE}
}