- Deskripsi :
Dataset Istella adalah tiga dataset Learning-to-Rank berskala besar yang dirilis oleh Istella. Setiap dataset terdiri dari pasangan dokumen kueri yang direpresentasikan sebagai vektor fitur dan label penilaian relevansi yang sesuai.
Dataset berisi tiga versi:
-
main
("Istella LETOR"): Berisi 10.454.629 pasangan dokumen permintaan. -
s
("Istella-S LETOR"): Berisi 3.408.630 pasangan dokumen permintaan. -
x
("Istella-X LETOR"): Berisi 26.791.447 pasangan dokumen kueri.
Anda dapat menentukan apakah akan menggunakan versi main
, s
atau x
dari kumpulan data sebagai berikut:
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
Jika hanya istella
yang ditentukan, opsi istella/main
dipilih secara default:
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
Kode sumber :
tfds.ranking.istella.Istella
Versi :
-
1.0.0
: Rilis awal. -
1.0.1
: Perbaiki serialisasi untuk mendukung float64. -
1.1.0
: Gabungkan fitur menjadi satu fitur 'float_features'. -
1.2.0
(default): Menambahkan kueri dan pengidentifikasi dokumen.
-
Di-cache otomatis ( dokumentasi ): Tidak
Struktur fitur :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
doc_id | Tensor | (Tidak ada,) | int64 | |
float_features | Tensor | (Tidak ada, 220) | float64 | |
label | Tensor | (Tidak ada,) | float64 | |
query_id | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella/main (konfigurasi default)
Ukuran unduhan :
1.20 GiB
Ukuran dataset :
1.12 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 9.799 |
'train' | 23.219 |
- Contoh ( tfds.as_dataframe ):
istella/s
Ukuran unduhan :
450.26 MiB
Ukuran dataset :
421.88 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 6.562 |
'train' | 19.245 |
'vali' | 7.211 |
- Contoh ( tfds.as_dataframe ):
istella/x
Ukuran unduhan :
4.42 GiB
Ukuran dataset :
2.46 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 6.000 |
'vali' | 2.000 |
- Contoh ( tfds.as_dataframe ):
- Deskripsi :
Dataset Istella adalah tiga dataset Learning-to-Rank berskala besar yang dirilis oleh Istella. Setiap dataset terdiri dari pasangan dokumen kueri yang direpresentasikan sebagai vektor fitur dan label penilaian relevansi yang sesuai.
Dataset berisi tiga versi:
-
main
("Istella LETOR"): Berisi 10.454.629 pasangan dokumen permintaan. -
s
("Istella-S LETOR"): Berisi 3.408.630 pasangan dokumen permintaan. -
x
("Istella-X LETOR"): Berisi 26.791.447 pasangan dokumen kueri.
Anda dapat menentukan apakah akan menggunakan versi main
, s
atau x
dari kumpulan data sebagai berikut:
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
Jika hanya istella
yang ditentukan, opsi istella/main
dipilih secara default:
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
Kode sumber :
tfds.ranking.istella.Istella
Versi :
-
1.0.0
: Rilis awal. -
1.0.1
: Perbaiki serialisasi untuk mendukung float64. -
1.1.0
: Gabungkan fitur menjadi satu fitur 'float_features'. -
1.2.0
(default): Menambahkan kueri dan pengidentifikasi dokumen.
-
Di-cache otomatis ( dokumentasi ): Tidak
Struktur fitur :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
doc_id | Tensor | (Tidak ada,) | int64 | |
float_features | Tensor | (Tidak ada, 220) | float64 | |
label | Tensor | (Tidak ada,) | float64 | |
query_id | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella/main (konfigurasi default)
Ukuran unduhan :
1.20 GiB
Ukuran dataset :
1.12 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 9.799 |
'train' | 23.219 |
- Contoh ( tfds.as_dataframe ):
istella/s
Ukuran unduhan :
450.26 MiB
Ukuran dataset :
421.88 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 6.562 |
'train' | 19.245 |
'vali' | 7.211 |
- Contoh ( tfds.as_dataframe ):
istella/x
Ukuran unduhan :
4.42 GiB
Ukuran dataset :
2.46 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 6.000 |
'vali' | 2.000 |
- Contoh ( tfds.as_dataframe ):