- Descrição :
Os conjuntos de dados Istella são três conjuntos de dados Learning-to-Rank em grande escala lançados por Istella. Cada conjunto de dados consiste em pares consulta-documento representados como vetores de recursos e rótulos de julgamento de relevância correspondentes.
O conjunto de dados contém três versões:
-
main
("Istella LETOR"): Contém 10.454.629 pares consulta-documento. -
s
("Istella-S LETOR"): Contém 3.408.630 pares consulta-documento. -
x
("Istella-X LETOR"): contendo 26.791.447 pares consulta-documento.
Você pode especificar se deseja usar a versão main
, s
ou x
do conjunto de dados da seguinte maneira:
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
Se apenas istella
for especificado, a opção istella/main
será selecionada por padrão:
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
Página inicial : http://quickrank.isti.cnr.it/istella-dataset/
Código fonte :
tfds.ranking.istella.Istella
Versões :
-
1.0.0
: versão inicial. -
1.0.1
: Corrige a serialização para suportar float64. -
1.1.0
: Agrupe recursos em um único recurso 'float_features'. -
1.2.0
(padrão): Adicionar identificadores de consulta e documento.
-
Armazenado em cache automaticamente ( documentação ): Não
Estrutura de recursos :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
doc_id | tensor | (Nenhum,) | int64 | |
float_features | tensor | (Nenhuma, 220) | float64 | |
rótulo | tensor | (Nenhum,) | float64 | |
query_id | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não compatível.
Citação :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella/main (configuração padrão)
Tamanho do download :
1.20 GiB
Tamanho do conjunto de dados :
1.12 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 9.799 |
'train' | 23.219 |
- Exemplos ( tfds.as_dataframe ):
ilha/s
Tamanho do download :
450.26 MiB
Tamanho do conjunto de dados :
421.88 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 6.562 |
'train' | 19.245 |
'vali' | 7.211 |
- Exemplos ( tfds.as_dataframe ):
ilha/x
Tamanho do download :
4.42 GiB
Tamanho do conjunto de dados :
2.46 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.000 |
'train' | 6.000 |
'vali' | 2.000 |
- Exemplos ( tfds.as_dataframe ):
- Descrição :
Os conjuntos de dados Istella são três conjuntos de dados Learning-to-Rank em grande escala lançados por Istella. Cada conjunto de dados consiste em pares consulta-documento representados como vetores de recursos e rótulos de julgamento de relevância correspondentes.
O conjunto de dados contém três versões:
-
main
("Istella LETOR"): Contém 10.454.629 pares consulta-documento. -
s
("Istella-S LETOR"): Contém 3.408.630 pares consulta-documento. -
x
("Istella-X LETOR"): contendo 26.791.447 pares consulta-documento.
Você pode especificar se deseja usar a versão main
, s
ou x
do conjunto de dados da seguinte maneira:
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
Se apenas istella
for especificado, a opção istella/main
será selecionada por padrão:
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
Página inicial : http://quickrank.isti.cnr.it/istella-dataset/
Código fonte :
tfds.ranking.istella.Istella
Versões :
-
1.0.0
: versão inicial. -
1.0.1
: Corrige a serialização para suportar float64. -
1.1.0
: Agrupe recursos em um único recurso 'float_features'. -
1.2.0
(padrão): Adicionar identificadores de consulta e documento.
-
Armazenado em cache automaticamente ( documentação ): Não
Estrutura de recursos :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
doc_id | tensor | (Nenhum,) | int64 | |
float_features | tensor | (Nenhuma, 220) | float64 | |
rótulo | tensor | (Nenhum,) | float64 | |
query_id | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não compatível.
Citação :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella/main (configuração padrão)
Tamanho do download :
1.20 GiB
Tamanho do conjunto de dados :
1.12 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 9.799 |
'train' | 23.219 |
- Exemplos ( tfds.as_dataframe ):
ilha/s
Tamanho do download :
450.26 MiB
Tamanho do conjunto de dados :
421.88 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 6.562 |
'train' | 19.245 |
'vali' | 7.211 |
- Exemplos ( tfds.as_dataframe ):
ilha/x
Tamanho do download :
4.42 GiB
Tamanho do conjunto de dados :
2.46 GiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.000 |
'train' | 6.000 |
'vali' | 2.000 |
- Exemplos ( tfds.as_dataframe ):