- Deskripsi :
Penyematan terlatih untuk perkiraan pencarian tetangga terdekat menggunakan jarak Euclidean. Dataset ini terdiri dari dua bagian:
- 'database': terdiri dari 1.000.000 titik data, masing-masing memiliki fitur: 'embedding' (128 float), 'index' (int64), 'neighbors' (daftar kosong).
- 'test': terdiri dari 10.000 titik data, masing-masing memiliki fitur: 'embedding' (128 float), 'index' (int64), 'neighbors' (daftar 'index' dan 'distance' tetangga terdekat di database. )
Beranda : http://corpus-texmex.irisa.fr/
Kode sumber :
tfds.datasets.sift1m.Builder
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
500.80 MiB
Ukuran dataset :
589.49 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'database' | 1.000.000 |
'test' | 10.000 |
- Struktur fitur :
FeaturesDict({
'embedding': Tensor(shape=(128,), dtype=float32),
'index': Scalar(shape=(), dtype=int64),
'neighbors': Sequence({
'distance': Scalar(shape=(), dtype=float32),
'index': Scalar(shape=(), dtype=int64),
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
penyematan | Tensor | (128,) | float32 | |
indeks | Skalar | int64 | Indeks dalam pemisahan. | |
tetangga | Urutan | Tetangga yang dihitung, yang hanya tersedia untuk test split. | ||
tetangga/jarak | Skalar | float32 | Jarak tetangga. | |
tetangga/indeks | Skalar | int64 | Indeks tetangga. |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@article{jegou2010product,
title={Product quantization for nearest neighbor search},
author={Jegou, Herve and Douze, Matthijs and Schmid, Cordelia},
journal={IEEE transactions on pattern analysis and machine intelligence},
volume={33},
number={1},
pages={117--128},
year={2010},
publisher={IEEE}
}