- Descrição :
O conjunto de dados do Yahoo Learning to Rank Challenge (também chamado de "C14") é um conjunto de dados Learning-to-Rank lançado pelo Yahoo. O conjunto de dados consiste em pares consulta-documento representados como vetores de recursos e rótulos de julgamento de relevância correspondentes.
O conjunto de dados contém duas versões:
-
set1
: contendo 709.877 pares consulta-documento. -
set2
: contendo 172.870 pares consulta-documento.
Você pode especificar se deseja usar a versão set1
ou set2
do conjunto de dados da seguinte maneira:
ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")
Se apenas yahoo_ltrc
for especificado, a opção yahoo_ltrc/set1
será selecionada por padrão:
# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
Página inicial : https://research.yahoo.com/datasets
Código -fonte:
tfds.ranking.yahoo_ltrc.YahooLTRC
Versões :
-
1.0.0
: versão inicial. -
1.1.0
(padrão): Adicionar identificadores de consulta e documento.
-
Tamanho do download :
Unknown size
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):
Solicite acesso ao conjunto de dados C14 Yahoo Learning To Rank Challenge em https://research.yahoo.com/datasets Extraia o arquivodataset.tgz
baixado e coloque o arquivoltrc_yahoo.tar.bz2
emmanual_dir/
.Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não compatível.
Citação :
@inproceedings{chapelle2011yahoo,
title={Yahoo! learning to rank challenge overview},
author={Chapelle, Olivier and Chang, Yi},
booktitle={Proceedings of the learning to rank challenge},
pages={1--24},
year={2011},
organization={PMLR}
}
yahoo_ltrc/set1 (configuração padrão)
Tamanho do conjunto de dados :
795.39 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 6.983 |
'train' | 19.944 |
'vali' | 2.994 |
- Estrutura de recursos :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 699), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
doc_id | tensor | (Nenhum,) | int64 | |
float_features | tensor | (Nenhuma, 699) | float64 | |
rótulo | tensor | (Nenhum,) | float64 | |
query_id | Texto | corda |
- Exemplos ( tfds.as_dataframe ):
yahoo_ltrc/set2
Tamanho do conjunto de dados :
194.92 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 3.798 |
'train' | 1.266 |
'vali' | 1.266 |
- Estrutura de recursos :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 700), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
doc_id | tensor | (Nenhum,) | int64 | |
float_features | tensor | (Nenhuma, 700) | float64 | |
rótulo | tensor | (Nenhum,) | float64 | |
query_id | Texto | corda |
- Exemplos ( tfds.as_dataframe ):