- Deskripsi :
Dataset Yahoo Learning to Rank Challenge (juga disebut "C14") adalah dataset Learning-to-Rank yang dirilis oleh Yahoo. Dataset terdiri dari pasangan dokumen kueri yang direpresentasikan sebagai vektor fitur dan label penilaian relevansi yang sesuai.
Dataset berisi dua versi:
-
set1
: Berisi 709.877 pasangan dokumen kueri. -
set2
: Berisi 172.870 pasangan dokumen kueri.
Anda dapat menentukan apakah akan menggunakan versi dataset set1
atau set2
sebagai berikut:
ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")
Jika hanya yahoo_ltrc
yang ditentukan, opsi yahoo_ltrc/set1
dipilih secara default:
# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
Beranda : https://research.yahoo.com/datasets
Kode sumber :
tfds.ranking.yahoo_ltrc.YahooLTRC
Versi :
-
1.0.0
: Rilis awal. -
1.1.0
(default): Menambahkan kueri dan pengidentifikasi dokumen.
-
Ukuran unduhan :
Unknown size
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke
download_config.manual_dir
(default ke~/tensorflow_datasets/downloads/manual/
):
Minta akses untuk dataset C14 Yahoo Learning To Rank Challenge di https://research.yahoo.com/datasets Ekstrak filedataset.tgz
yang diunduh dan tempatkan fileltrc_yahoo.tar.bz2
dimanual_dir/
.Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@inproceedings{chapelle2011yahoo,
title={Yahoo! learning to rank challenge overview},
author={Chapelle, Olivier and Chang, Yi},
booktitle={Proceedings of the learning to rank challenge},
pages={1--24},
year={2011},
organization={PMLR}
}
yahoo_ltrc/set1 (konfigurasi default)
Ukuran dataset :
795.39 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 6.983 |
'train' | 19.944 |
'vali' | 2.994 |
- Struktur fitur :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 699), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
doc_id | Tensor | (Tidak ada,) | int64 | |
float_features | Tensor | (Tidak ada, 699) | float64 | |
label | Tensor | (Tidak ada,) | float64 | |
query_id | Teks | rangkaian |
- Contoh ( tfds.as_dataframe ):
yahoo_ltrc/set2
Ukuran dataset :
194.92 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 3.798 |
'train' | 1.266 |
'vali' | 1.266 |
- Struktur fitur :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 700), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
doc_id | Tensor | (Tidak ada,) | int64 | |
float_features | Tensor | (Tidak ada, 700) | float64 | |
label | Tensor | (Tidak ada,) | float64 | |
query_id | Teks | rangkaian |
- Contoh ( tfds.as_dataframe ):