yahoo_ltrc

  • Descrição :

O conjunto de dados do Yahoo Learning to Rank Challenge (também chamado de "C14") é um conjunto de dados Learning-to-Rank lançado pelo Yahoo. O conjunto de dados consiste em pares consulta-documento representados como vetores de recursos e rótulos de julgamento de relevância correspondentes.

O conjunto de dados contém duas versões:

  • set1 : contendo 709.877 pares consulta-documento.
  • set2 : contendo 172.870 pares consulta-documento.

Você pode especificar se deseja usar a versão set1 ou set2 do conjunto de dados da seguinte maneira:

ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")

Se apenas yahoo_ltrc for especificado, a opção yahoo_ltrc/set1 será selecionada por padrão:

# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
  • Página inicial : https://research.yahoo.com/datasets

  • Código -fonte: tfds.ranking.yahoo_ltrc.YahooLTRC

  • Versões :

    • 1.0.0 : versão inicial.
    • 1.1.0 (padrão): Adicionar identificadores de consulta e documento.
  • Tamanho do download : Unknown size

  • Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
    Solicite acesso ao conjunto de dados C14 Yahoo Learning To Rank Challenge em https://research.yahoo.com/datasets Extraia o arquivo dataset.tgz baixado e coloque o arquivo ltrc_yahoo.tar.bz2 em manual_dir/ .

  • Chaves supervisionadas (Consulte as_supervised doc ): None

  • Figura ( tfds.show_examples ): Não compatível.

  • Citação :

@inproceedings{chapelle2011yahoo,
  title={Yahoo! learning to rank challenge overview},
  author={Chapelle, Olivier and Chang, Yi},
  booktitle={Proceedings of the learning to rank challenge},
  pages={1--24},
  year={2011},
  organization={PMLR}
}

yahoo_ltrc/set1 (configuração padrão)

  • Tamanho do conjunto de dados : 795.39 MiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 6.983
'train' 19.944
'vali' 2.994
  • Estrutura de recursos :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 699), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
doc_id tensor (Nenhum,) int64
float_features tensor (Nenhuma, 699) float64
rótulo tensor (Nenhum,) float64
query_id Texto corda

yahoo_ltrc/set2

  • Tamanho do conjunto de dados : 194.92 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 3.798
'train' 1.266
'vali' 1.266
  • Estrutura de recursos :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 700), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
doc_id tensor (Nenhum,) int64
float_features tensor (Nenhuma, 700) float64
rótulo tensor (Nenhum,) float64
query_id Texto corda