istella

  • Deskripsi :

Dataset Istella adalah tiga dataset Learning-to-Rank berskala besar yang dirilis oleh Istella. Setiap dataset terdiri dari pasangan dokumen kueri yang direpresentasikan sebagai vektor fitur dan label penilaian relevansi yang sesuai.

Dataset berisi tiga versi:

  • main ("Istella LETOR"): Berisi 10.454.629 pasangan dokumen permintaan.
  • s ("Istella-S LETOR"): Berisi 3.408.630 pasangan dokumen permintaan.
  • x ("Istella-X LETOR"): Berisi 26.791.447 pasangan dokumen kueri.

Anda dapat menentukan apakah akan menggunakan versi main , s atau x dari kumpulan data sebagai berikut:

ds = tfds.load("istella/main")
ds
= tfds.load("istella/s")
ds
= tfds.load("istella/x")

Jika hanya istella yang ditentukan, opsi istella/main dipilih secara default:

# This is the same as `tfds.load("istella/main")`
ds
= tfds.load("istella")
FeaturesDict({
   
'doc_id': Tensor(shape=(None,), dtype=int64),
   
'float_features': Tensor(shape=(None, 220), dtype=float64),
   
'label': Tensor(shape=(None,), dtype=float64),
   
'query_id': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
doc_id Tensor (Tidak ada,) int64
float_features Tensor (Tidak ada, 220) float64
label Tensor (Tidak ada,) float64
query_id Teks rangkaian
@article{10.1145/2987380,
  author
= {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title
= {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year
= {2016},
  publisher
= {ACM},
  address
= {New York, NY, USA},
  volume
= {35},
  number
= {2},
  issn
= {1046-8188},
  url
= {https://doi.org/10.1145/2987380},
  doi
= {10.1145/2987380},
  journal
= {ACM Transactions on Information Systems},
  articleno
= {15},
  numpages
= {31},
}

istella/main (konfigurasi default)

  • Ukuran unduhan : 1.20 GiB

  • Ukuran dataset : 1.12 GiB

  • Perpecahan :

Membelah Contoh
'test' 9.799
'train' 23.219

istella/s

  • Ukuran unduhan : 450.26 MiB

  • Ukuran dataset : 421.88 MiB

  • Perpecahan :

Membelah Contoh
'test' 6.562
'train' 19.245
'vali' 7.211

istella/x

  • Ukuran unduhan : 4.42 GiB

  • Ukuran dataset : 2.46 GiB

  • Perpecahan :

Membelah Contoh
'test' 2.000
'train' 6.000
'vali' 2.000
,

  • Deskripsi :

Dataset Istella adalah tiga dataset Learning-to-Rank berskala besar yang dirilis oleh Istella. Setiap dataset terdiri dari pasangan dokumen kueri yang direpresentasikan sebagai vektor fitur dan label penilaian relevansi yang sesuai.

Dataset berisi tiga versi:

  • main ("Istella LETOR"): Berisi 10.454.629 pasangan dokumen permintaan.
  • s ("Istella-S LETOR"): Berisi 3.408.630 pasangan dokumen permintaan.
  • x ("Istella-X LETOR"): Berisi 26.791.447 pasangan dokumen kueri.

Anda dapat menentukan apakah akan menggunakan versi main , s atau x dari kumpulan data sebagai berikut:

ds = tfds.load("istella/main")
ds
= tfds.load("istella/s")
ds
= tfds.load("istella/x")

Jika hanya istella yang ditentukan, opsi istella/main dipilih secara default:

# This is the same as `tfds.load("istella/main")`
ds
= tfds.load("istella")
FeaturesDict({
   
'doc_id': Tensor(shape=(None,), dtype=int64),
   
'float_features': Tensor(shape=(None, 220), dtype=float64),
   
'label': Tensor(shape=(None,), dtype=float64),
   
'query_id': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
doc_id Tensor (Tidak ada,) int64
float_features Tensor (Tidak ada, 220) float64
label Tensor (Tidak ada,) float64
query_id Teks rangkaian
@article{10.1145/2987380,
  author
= {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title
= {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year
= {2016},
  publisher
= {ACM},
  address
= {New York, NY, USA},
  volume
= {35},
  number
= {2},
  issn
= {1046-8188},
  url
= {https://doi.org/10.1145/2987380},
  doi
= {10.1145/2987380},
  journal
= {ACM Transactions on Information Systems},
  articleno
= {15},
  numpages
= {31},
}

istella/main (konfigurasi default)

  • Ukuran unduhan : 1.20 GiB

  • Ukuran dataset : 1.12 GiB

  • Perpecahan :

Membelah Contoh
'test' 9.799
'train' 23.219

istella/s

  • Ukuran unduhan : 450.26 MiB

  • Ukuran dataset : 421.88 MiB

  • Perpecahan :

Membelah Contoh
'test' 6.562
'train' 19.245
'vali' 7.211

istella/x

  • Ukuran unduhan : 4.42 GiB

  • Ukuran dataset : 2.46 GiB

  • Perpecahan :

Membelah Contoh
'test' 2.000
'train' 6.000
'vali' 2.000