- Deskripsi :
MSLR-WEB adalah dua kumpulan data Learning-to-Rank berskala besar yang dirilis oleh Microsoft Research. Kumpulan data pertama (disebut "30k") berisi 30.000 kueri dan kumpulan data kedua (disebut "10k") berisi 10.000 kueri. Setiap dataset terdiri dari pasangan dokumen kueri yang direpresentasikan sebagai vektor fitur dan label penilaian relevansi yang sesuai.
Anda dapat menentukan apakah akan menggunakan versi dataset "10k" atau "30k", dan fold yang sesuai, sebagai berikut:
ds = tfds.load("mslr_web/30k_fold1")
Jika hanya mslr_web
yang ditentukan, opsi mslr_web/10k_fold1
dipilih secara default:
# This is the same as `tfds.load("mslr_web/10k_fold1")`
ds = tfds.load("mslr_web")
Beranda : https://www.microsoft.com/en-us/research/project/mslr/
Kode sumber :
tfds.ranking.mslr_web.MslrWeb
Versi :
-
1.0.0
: Rilis awal. -
1.1.0
: Gabungkan fitur menjadi satu fitur 'float_features'. -
1.2.0
(default): Menambahkan kueri dan pengidentifikasi dokumen.
-
Di-cache otomatis ( dokumentasi ): Tidak
Struktur fitur :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 136), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
doc_id | Tensor | (Tidak ada,) | int64 | |
float_features | Tensor | (Tidak ada, 136) | float64 | |
label | Tensor | (Tidak ada,) | float64 | |
query_id | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{DBLP:journals/corr/QinL13,
author = {Tao Qin and Tie{-}Yan Liu},
title = {Introducing {LETOR} 4.0 Datasets},
journal = {CoRR},
volume = {abs/1306.2597},
year = {2013},
url = {http://arxiv.org/abs/1306.2597},
timestamp = {Mon, 01 Jul 2013 20:31:25 +0200},
biburl = {http://dblp.uni-trier.de/rec/bib/journals/corr/QinL13},
bibsource = {dblp computer science bibliography, http://dblp.org}
}
mslr_web/10k_fold1 (konfigurasi default)
Ukuran unduhan :
1.15 GiB
Ukuran dataset :
310.08 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 6.000 |
'vali' | 2.000 |
- Contoh ( tfds.as_dataframe ):
mslr_web/10k_fold2
Ukuran unduhan :
1.15 GiB
Ukuran dataset :
310.08 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 6.000 |
'vali' | 2.000 |
- Contoh ( tfds.as_dataframe ):
mslr_web/10k_fold3
Ukuran unduhan :
1.15 GiB
Ukuran dataset :
310.08 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 6.000 |
'vali' | 2.000 |
- Contoh ( tfds.as_dataframe ):
mslr_web/10k_fold4
Ukuran unduhan :
1.15 GiB
Ukuran dataset :
310.08 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 6.000 |
'vali' | 2.000 |
- Contoh ( tfds.as_dataframe ):
mslr_web/10k_fold5
Ukuran unduhan :
1.15 GiB
Ukuran dataset :
310.08 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.000 |
'train' | 6.000 |
'vali' | 2.000 |
- Contoh ( tfds.as_dataframe ):
mslr_web/30k_fold1
Ukuran unduhan :
3.59 GiB
Ukuran dataset :
964.09 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 6.306 |
'train' | 18.919 |
'vali' | 6.306 |
- Contoh ( tfds.as_dataframe ):
mslr_web/30k_fold2
Ukuran unduhan :
3.59 GiB
Ukuran dataset :
964.09 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 6.307 |
'train' | 18.918 |
'vali' | 6.306 |
- Contoh ( tfds.as_dataframe ):
mslr_web/30k_fold3
Ukuran unduhan :
3.59 GiB
Ukuran dataset :
964.09 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 6.306 |
'train' | 18.918 |
'vali' | 6.307 |
- Contoh ( tfds.as_dataframe ):
mslr_web/30k_fold4
Ukuran unduhan :
3.59 GiB
Ukuran dataset :
964.09 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 6.306 |
'train' | 18.919 |
'vali' | 6.306 |
- Contoh ( tfds.as_dataframe ):
mslr_web/30k_fold5
Ukuran unduhan :
3.59 GiB
Ukuran dataset :
964.09 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 6.306 |
'train' | 18.919 |
'vali' | 6.306 |
- Contoh ( tfds.as_dataframe ):