istella

  • Descriptif :

Les ensembles de données Istella sont trois ensembles de données Learning-to-Rank à grande échelle publiés par Istella. Chaque ensemble de données se compose de paires requête-document représentées sous forme de vecteurs de caractéristiques et d'étiquettes de jugement de pertinence correspondantes.

L'ensemble de données contient trois versions :

  • main ("Istella LETOR") : contenant 10 454 629 paires requête-document.
  • s ("Istella-S LETOR") : contenant 3 408 630 paires requête-document.
  • x ("Istella-X LETOR") : contenant 26 791 447 paires requête-document.

Vous pouvez spécifier si vous souhaitez utiliser la version main , s ou x du jeu de données comme suit :

ds = tfds.load("istella/main")
ds
= tfds.load("istella/s")
ds
= tfds.load("istella/x")

Si seul istella est spécifié, l'option istella/main est sélectionnée par défaut :

# This is the same as `tfds.load("istella/main")`
ds
= tfds.load("istella")
  • Page d' accueil : http://quickrank.isti.cnr.it/istella-dataset/

  • Code source : tfds.ranking.istella.Istella

  • Versions :

    • 1.0.0 : Version initiale.
    • 1.0.1 : Correction de la sérialisation pour supporter float64.
    • 1.1.0 : Regroupez les fonctionnalités dans une seule fonctionnalité 'float_features'.
    • 1.2.0 (par défaut) : ajouter des identifiants de requête et de document.
  • Mise en cache automatique ( documentation ): Non

  • Structure des fonctionnalités :

FeaturesDict({
   
'doc_id': Tensor(shape=(None,), dtype=int64),
   
'float_features': Tensor(shape=(None, 220), dtype=float64),
   
'label': Tensor(shape=(None,), dtype=float64),
   
'query_id': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
doc_id Tenseur (Aucun,) int64
float_features Tenseur (Aucun, 220) float64
étiquette Tenseur (Aucun,) float64
ID_requête Texte chaîne
@article{10.1145/2987380,
  author
= {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title
= {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year
= {2016},
  publisher
= {ACM},
  address
= {New York, NY, USA},
  volume
= {35},
  number
= {2},
  issn
= {1046-8188},
  url
= {https://doi.org/10.1145/2987380},
  doi
= {10.1145/2987380},
  journal
= {ACM Transactions on Information Systems},
  articleno
= {15},
  numpages
= {31},
}

istella/main (configuration par défaut)

  • Taille du téléchargement : 1.20 GiB

  • Taille du jeu de données : 1.12 GiB

  • Fractionnements :

Diviser Exemples
'test' 9 799
'train' 23 219

istella/s

  • Taille du téléchargement : 450.26 MiB

  • Taille du jeu de données : 421.88 MiB

  • Fractionnements :

Diviser Exemples
'test' 6 562
'train' 19 245
'vali' 7 211

isla/x

  • Taille du téléchargement : 4.42 GiB

  • Taille du jeu de données : 2.46 GiB

  • Fractionnements :

Diviser Exemples
'test' 2 000
'train' 6 000
'vali' 2 000