istella

  • opis :

Zbiory danych Istella to trzy wielkoskalowe zestawy danych Learning-to-Rank wydane przez Istella. Każdy zestaw danych składa się z par zapytanie-dokument reprezentowanych jako wektory cech i odpowiadające im etykiety oceny istotności.

Zestaw danych zawiera trzy wersje:

  • main („Istella LETOR”): Zawiera 10 454 629 par zapytanie-dokument.
  • s („Istella-S LETOR”): Zawiera 3 408 630 par zapytanie-dokument.
  • x („Istella-X LETOR”): Zawiera 26 791 447 par zapytanie-dokument.

Możesz określić, czy chcesz użyć wersji main , s czy x zestawu danych w następujący sposób:

ds = tfds.load("istella/main")
ds
= tfds.load("istella/s")
ds
= tfds.load("istella/x")

Jeśli określono tylko istella , domyślnie wybrana jest opcja istella/main :

# This is the same as `tfds.load("istella/main")`
ds
= tfds.load("istella")
FeaturesDict({
   
'doc_id': Tensor(shape=(None,), dtype=int64),
   
'float_features': Tensor(shape=(None, 220), dtype=float64),
   
'label': Tensor(shape=(None,), dtype=float64),
   
'query_id': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
identyfikator_dokumentu Napinacz (Nic,) int64
float_features Napinacz (Brak, 220) pływak64
etykieta Napinacz (Nic,) pływak64
identyfikator_zapytania Tekst strunowy
@article{10.1145/2987380,
  author
= {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title
= {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year
= {2016},
  publisher
= {ACM},
  address
= {New York, NY, USA},
  volume
= {35},
  number
= {2},
  issn
= {1046-8188},
  url
= {https://doi.org/10.1145/2987380},
  doi
= {10.1145/2987380},
  journal
= {ACM Transactions on Information Systems},
  articleno
= {15},
  numpages
= {31},
}

istella/main (domyślna konfiguracja)

  • Rozmiar pliku do pobrania : 1.20 GiB

  • Rozmiar zestawu danych : 1.12 GiB

  • Podziały :

Podział Przykłady
'test' 9799
'train' 23219

istella/s

  • Rozmiar pliku do pobrania : 450.26 MiB

  • Rozmiar zestawu danych : 421.88 MiB

  • Podziały :

Podział Przykłady
'test' 6562
'train' 19245
'vali' 7211

istella/x

  • Rozmiar pliku do pobrania : 4.42 GiB

  • Rozmiar zestawu danych : 2.46 GiB

  • Podziały :

Podział Przykłady
'test' 2000
'train' 6000
'vali' 2000
,

  • opis :

Zbiory danych Istella to trzy wielkoskalowe zestawy danych Learning-to-Rank wydane przez Istella. Każdy zestaw danych składa się z par zapytanie-dokument reprezentowanych jako wektory cech i odpowiadające im etykiety oceny istotności.

Zestaw danych zawiera trzy wersje:

  • main („Istella LETOR”): Zawiera 10 454 629 par zapytanie-dokument.
  • s („Istella-S LETOR”): Zawiera 3 408 630 par zapytanie-dokument.
  • x („Istella-X LETOR”): Zawiera 26 791 447 par zapytanie-dokument.

Możesz określić, czy chcesz użyć wersji main , s czy x zestawu danych w następujący sposób:

ds = tfds.load("istella/main")
ds
= tfds.load("istella/s")
ds
= tfds.load("istella/x")

Jeśli określono tylko istella , domyślnie wybrana jest opcja istella/main :

# This is the same as `tfds.load("istella/main")`
ds
= tfds.load("istella")
FeaturesDict({
   
'doc_id': Tensor(shape=(None,), dtype=int64),
   
'float_features': Tensor(shape=(None, 220), dtype=float64),
   
'label': Tensor(shape=(None,), dtype=float64),
   
'query_id': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
identyfikator_dokumentu Napinacz (Nic,) int64
float_features Napinacz (Brak, 220) pływak64
etykieta Napinacz (Nic,) pływak64
identyfikator_zapytania Tekst strunowy
@article{10.1145/2987380,
  author
= {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title
= {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year
= {2016},
  publisher
= {ACM},
  address
= {New York, NY, USA},
  volume
= {35},
  number
= {2},
  issn
= {1046-8188},
  url
= {https://doi.org/10.1145/2987380},
  doi
= {10.1145/2987380},
  journal
= {ACM Transactions on Information Systems},
  articleno
= {15},
  numpages
= {31},
}

istella/main (domyślna konfiguracja)

  • Rozmiar pliku do pobrania : 1.20 GiB

  • Rozmiar zestawu danych : 1.12 GiB

  • Podziały :

Podział Przykłady
'test' 9799
'train' 23219

istella/s

  • Rozmiar pliku do pobrania : 450.26 MiB

  • Rozmiar zestawu danych : 421.88 MiB

  • Podziały :

Podział Przykłady
'test' 6562
'train' 19245
'vali' 7211

istella/x

  • Rozmiar pliku do pobrania : 4.42 GiB

  • Rozmiar zestawu danych : 2.46 GiB

  • Podziały :

Podział Przykłady
'test' 2000
'train' 6000
'vali' 2000