- Descriptif :
L'ensemble de données Yahoo Learning to Rank Challenge (également appelé "C14") est un ensemble de données Learning-to-Rank publié par Yahoo. L'ensemble de données se compose de paires requête-document représentées sous forme de vecteurs de caractéristiques et d'étiquettes de jugement de pertinence correspondantes.
L'ensemble de données contient deux versions :
-
set1
: Contenant 709 877 paires requête-document. -
set2
: Contenant 172 870 paires requête-document.
Vous pouvez spécifier si vous souhaitez utiliser la version set2
ou set1
de l'ensemble de données comme suit :
ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")
Si seul yahoo_ltrc
est spécifié, l'option yahoo_ltrc/set1
est sélectionnée par défaut :
# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
Page d' accueil : https://research.yahoo.com/datasets
Code source :
tfds.ranking.yahoo_ltrc.YahooLTRC
Versions :
-
1.0.0
: Version initiale. -
1.1.0
(par défaut) : ajouter des identifiants de requête et de document.
-
Taille du téléchargement :
Unknown size
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données source dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :
Demandez l'accès à l'ensemble de données C14 Yahoo Learning To Rank Challenge sur https://research.yahoo.com/datasets Extrayez le fichierdataset.tgz
téléchargé et placez le fichierltrc_yahoo.tar.bz2
dansmanual_dir/
.Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@inproceedings{chapelle2011yahoo,
title={Yahoo! learning to rank challenge overview},
author={Chapelle, Olivier and Chang, Yi},
booktitle={Proceedings of the learning to rank challenge},
pages={1--24},
year={2011},
organization={PMLR}
}
yahoo_ltrc/set1 (configuration par défaut)
Taille du jeu de données :
795.39 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 6 983 |
'train' | 19 944 |
'vali' | 2 994 |
- Structure des fonctionnalités :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 699), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
doc_id | Tenseur | (Aucun,) | int64 | |
float_features | Tenseur | (Aucun, 699) | float64 | |
étiquette | Tenseur | (Aucun,) | float64 | |
ID_requête | Texte | chaîne |
- Exemples ( tfds.as_dataframe ):
yahoo_ltrc/set2
Taille du jeu de données :
194.92 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 3 798 |
'train' | 1 266 |
'vali' | 1 266 |
- Structure des fonctionnalités :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 700), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
doc_id | Tenseur | (Aucun,) | int64 | |
float_features | Tenseur | (Aucun, 700) | float64 | |
étiquette | Tenseur | (Aucun,) | float64 | |
ID_requête | Texte | chaîne |
- Exemples ( tfds.as_dataframe ):