mslr_web

  • Deskripsi :

MSLR-WEB adalah dua kumpulan data Learning-to-Rank berskala besar yang dirilis oleh Microsoft Research. Kumpulan data pertama (disebut "30k") berisi 30.000 kueri dan kumpulan data kedua (disebut "10k") berisi 10.000 kueri. Setiap dataset terdiri dari pasangan dokumen kueri yang direpresentasikan sebagai vektor fitur dan label penilaian relevansi yang sesuai.

Anda dapat menentukan apakah akan menggunakan versi dataset "10k" atau "30k", dan fold yang sesuai, sebagai berikut:

ds = tfds.load("mslr_web/30k_fold1")

Jika hanya mslr_web yang ditentukan, opsi mslr_web/10k_fold1 dipilih secara default:

# This is the same as `tfds.load("mslr_web/10k_fold1")`
ds = tfds.load("mslr_web")
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 136), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
doc_id Tensor (Tidak ada,) int64
float_features Tensor (Tidak ada, 136) float64
label Tensor (Tidak ada,) float64
query_id Teks rangkaian
@article{DBLP:journals/corr/QinL13,
  author    = {Tao Qin and Tie{-}Yan Liu},
  title     = {Introducing {LETOR} 4.0 Datasets},
  journal   = {CoRR},
  volume    = {abs/1306.2597},
  year      = {2013},
  url       = {http://arxiv.org/abs/1306.2597},
  timestamp = {Mon, 01 Jul 2013 20:31:25 +0200},
  biburl    = {http://dblp.uni-trier.de/rec/bib/journals/corr/QinL13},
  bibsource = {dblp computer science bibliography, http://dblp.org}
}

mslr_web/10k_fold1 (konfigurasi default)

  • Ukuran unduhan : 1.15 GiB

  • Ukuran dataset : 310.08 MiB

  • Perpecahan :

Membelah Contoh
'test' 2.000
'train' 6.000
'vali' 2.000

mslr_web/10k_fold2

  • Ukuran unduhan : 1.15 GiB

  • Ukuran dataset : 310.08 MiB

  • Perpecahan :

Membelah Contoh
'test' 2.000
'train' 6.000
'vali' 2.000

mslr_web/10k_fold3

  • Ukuran unduhan : 1.15 GiB

  • Ukuran dataset : 310.08 MiB

  • Perpecahan :

Membelah Contoh
'test' 2.000
'train' 6.000
'vali' 2.000

mslr_web/10k_fold4

  • Ukuran unduhan : 1.15 GiB

  • Ukuran dataset : 310.08 MiB

  • Perpecahan :

Membelah Contoh
'test' 2.000
'train' 6.000
'vali' 2.000

mslr_web/10k_fold5

  • Ukuran unduhan : 1.15 GiB

  • Ukuran dataset : 310.08 MiB

  • Perpecahan :

Membelah Contoh
'test' 2.000
'train' 6.000
'vali' 2.000

mslr_web/30k_fold1

  • Ukuran unduhan : 3.59 GiB

  • Ukuran dataset : 964.09 MiB

  • Perpecahan :

Membelah Contoh
'test' 6.306
'train' 18.919
'vali' 6.306

mslr_web/30k_fold2

  • Ukuran unduhan : 3.59 GiB

  • Ukuran dataset : 964.09 MiB

  • Perpecahan :

Membelah Contoh
'test' 6.307
'train' 18.918
'vali' 6.306

mslr_web/30k_fold3

  • Ukuran unduhan : 3.59 GiB

  • Ukuran dataset : 964.09 MiB

  • Perpecahan :

Membelah Contoh
'test' 6.306
'train' 18.918
'vali' 6.307

mslr_web/30k_fold4

  • Ukuran unduhan : 3.59 GiB

  • Ukuran dataset : 964.09 MiB

  • Perpecahan :

Membelah Contoh
'test' 6.306
'train' 18.919
'vali' 6.306

mslr_web/30k_fold5

  • Ukuran unduhan : 3.59 GiB

  • Ukuran dataset : 964.09 MiB

  • Perpecahan :

Membelah Contoh
'test' 6.306
'train' 18.919
'vali' 6.306