ilha

  • Descrição :

Os conjuntos de dados Istella são três conjuntos de dados Learning-to-Rank em grande escala lançados por Istella. Cada conjunto de dados consiste em pares consulta-documento representados como vetores de recursos e rótulos de julgamento de relevância correspondentes.

O conjunto de dados contém três versões:

  • main ("Istella LETOR"): Contém 10.454.629 pares consulta-documento.
  • s ("Istella-S LETOR"): Contém 3.408.630 pares consulta-documento.
  • x ("Istella-X LETOR"): contendo 26.791.447 pares consulta-documento.

Você pode especificar se deseja usar a versão main , s ou x do conjunto de dados da seguinte maneira:

ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")

Se apenas istella for especificado, a opção istella/main será selecionada por padrão:

# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 220), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
doc_id tensor (Nenhum,) int64
float_features tensor (Nenhuma, 220) float64
rótulo tensor (Nenhum,) float64
query_id Texto corda
@article{10.1145/2987380,
  author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year = {2016},
  publisher = {ACM},
  address = {New York, NY, USA},
  volume = {35},
  number = {2},
  issn = {1046-8188},
  url = {https://doi.org/10.1145/2987380},
  doi = {10.1145/2987380},
  journal = {ACM Transactions on Information Systems},
  articleno = {15},
  numpages = {31},
}

istella/main (configuração padrão)

  • Tamanho do download : 1.20 GiB

  • Tamanho do conjunto de dados : 1.12 GiB

  • Divisões :

Dividir Exemplos
'test' 9.799
'train' 23.219

ilha/s

  • Tamanho do download : 450.26 MiB

  • Tamanho do conjunto de dados : 421.88 MiB

  • Divisões :

Dividir Exemplos
'test' 6.562
'train' 19.245
'vali' 7.211

ilha/x

  • Tamanho do download : 4.42 GiB

  • Tamanho do conjunto de dados : 2.46 GiB

  • Divisões :

Dividir Exemplos
'test' 2.000
'train' 6.000
'vali' 2.000
,

  • Descrição :

Os conjuntos de dados Istella são três conjuntos de dados Learning-to-Rank em grande escala lançados por Istella. Cada conjunto de dados consiste em pares consulta-documento representados como vetores de recursos e rótulos de julgamento de relevância correspondentes.

O conjunto de dados contém três versões:

  • main ("Istella LETOR"): Contém 10.454.629 pares consulta-documento.
  • s ("Istella-S LETOR"): Contém 3.408.630 pares consulta-documento.
  • x ("Istella-X LETOR"): contendo 26.791.447 pares consulta-documento.

Você pode especificar se deseja usar a versão main , s ou x do conjunto de dados da seguinte maneira:

ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")

Se apenas istella for especificado, a opção istella/main será selecionada por padrão:

# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 220), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
doc_id tensor (Nenhum,) int64
float_features tensor (Nenhuma, 220) float64
rótulo tensor (Nenhum,) float64
query_id Texto corda
@article{10.1145/2987380,
  author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year = {2016},
  publisher = {ACM},
  address = {New York, NY, USA},
  volume = {35},
  number = {2},
  issn = {1046-8188},
  url = {https://doi.org/10.1145/2987380},
  doi = {10.1145/2987380},
  journal = {ACM Transactions on Information Systems},
  articleno = {15},
  numpages = {31},
}

istella/main (configuração padrão)

  • Tamanho do download : 1.20 GiB

  • Tamanho do conjunto de dados : 1.12 GiB

  • Divisões :

Dividir Exemplos
'test' 9.799
'train' 23.219

ilha/s

  • Tamanho do download : 450.26 MiB

  • Tamanho do conjunto de dados : 421.88 MiB

  • Divisões :

Dividir Exemplos
'test' 6.562
'train' 19.245
'vali' 7.211

ilha/x

  • Tamanho do download : 4.42 GiB

  • Tamanho do conjunto de dados : 2.46 GiB

  • Divisões :

Dividir Exemplos
'test' 2.000
'train' 6.000
'vali' 2.000