yahoo_ltrc

  • Descriptif :

L'ensemble de données Yahoo Learning to Rank Challenge (également appelé "C14") est un ensemble de données Learning-to-Rank publié par Yahoo. L'ensemble de données se compose de paires requête-document représentées sous forme de vecteurs de caractéristiques et d'étiquettes de jugement de pertinence correspondantes.

L'ensemble de données contient deux versions :

  • set1 : Contenant 709 877 paires requête-document.
  • set2 : Contenant 172 870 paires requête-document.

Vous pouvez spécifier si vous souhaitez utiliser la version set2 ou set1 de l'ensemble de données comme suit :

ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")

Si seul yahoo_ltrc est spécifié, l'option yahoo_ltrc/set1 est sélectionnée par défaut :

# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
  • Page d' accueil : https://research.yahoo.com/datasets

  • Code source : tfds.ranking.yahoo_ltrc.YahooLTRC

  • Versions :

    • 1.0.0 : Version initiale.
    • 1.1.0 (par défaut) : ajouter des identifiants de requête et de document.
  • Taille du téléchargement : Unknown size

  • Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données source dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ) :
    Demandez l'accès à l'ensemble de données C14 Yahoo Learning To Rank Challenge sur https://research.yahoo.com/datasets Extrayez le fichier dataset.tgz téléchargé et placez le fichier ltrc_yahoo.tar.bz2 dans manual_dir/ .

  • Clés supervisées (Voir as_supervised doc ): None

  • Figure ( tfds.show_examples ) : non pris en charge.

  • Citation :

@inproceedings{chapelle2011yahoo,
  title={Yahoo! learning to rank challenge overview},
  author={Chapelle, Olivier and Chang, Yi},
  booktitle={Proceedings of the learning to rank challenge},
  pages={1--24},
  year={2011},
  organization={PMLR}
}

yahoo_ltrc/set1 (configuration par défaut)

  • Taille du jeu de données : 795.39 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 6 983
'train' 19 944
'vali' 2 994
  • Structure des fonctionnalités :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 699), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
doc_id Tenseur (Aucun,) int64
float_features Tenseur (Aucun, 699) float64
étiquette Tenseur (Aucun,) float64
ID_requête Texte chaîne

yahoo_ltrc/set2

  • Taille du jeu de données : 194.92 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 3 798
'train' 1 266
'vali' 1 266
  • Structure des fonctionnalités :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 700), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
doc_id Tenseur (Aucun,) int64
float_features Tenseur (Aucun, 700) float64
étiquette Tenseur (Aucun,) float64
ID_requête Texte chaîne