yahoo_ltrc

  • Deskripsi :

Dataset Yahoo Learning to Rank Challenge (juga disebut "C14") adalah dataset Learning-to-Rank yang dirilis oleh Yahoo. Dataset terdiri dari pasangan dokumen kueri yang direpresentasikan sebagai vektor fitur dan label penilaian relevansi yang sesuai.

Dataset berisi dua versi:

  • set1 : Berisi 709.877 pasangan dokumen kueri.
  • set2 : Berisi 172.870 pasangan dokumen kueri.

Anda dapat menentukan apakah akan menggunakan versi dataset set1 atau set2 sebagai berikut:

ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")

Jika hanya yahoo_ltrc yang ditentukan, opsi yahoo_ltrc/set1 dipilih secara default:

# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
  • Beranda : https://research.yahoo.com/datasets

  • Kode sumber : tfds.ranking.yahoo_ltrc.YahooLTRC

  • Versi :

    • 1.0.0 : Rilis awal.
    • 1.1.0 (default): Menambahkan kueri dan pengidentifikasi dokumen.
  • Ukuran unduhan : Unknown size

  • Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke download_config.manual_dir (default ke ~/tensorflow_datasets/downloads/manual/ ):
    Minta akses untuk dataset C14 Yahoo Learning To Rank Challenge di https://research.yahoo.com/datasets Ekstrak file dataset.tgz yang diunduh dan tempatkan file ltrc_yahoo.tar.bz2 di manual_dir/ .

  • Kunci yang diawasi (Lihat as_supervised doc ): None

  • Gambar ( tfds.show_examples ): Tidak didukung.

  • Kutipan :

@inproceedings{chapelle2011yahoo,
  title={Yahoo! learning to rank challenge overview},
  author={Chapelle, Olivier and Chang, Yi},
  booktitle={Proceedings of the learning to rank challenge},
  pages={1--24},
  year={2011},
  organization={PMLR}
}

yahoo_ltrc/set1 (konfigurasi default)

  • Ukuran dataset : 795.39 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'test' 6.983
'train' 19.944
'vali' 2.994
  • Struktur fitur :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 699), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
doc_id Tensor (Tidak ada,) int64
float_features Tensor (Tidak ada, 699) float64
label Tensor (Tidak ada,) float64
query_id Teks rangkaian

yahoo_ltrc/set2

  • Ukuran dataset : 194.92 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 3.798
'train' 1.266
'vali' 1.266
  • Struktur fitur :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 700), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
doc_id Tensor (Tidak ada,) int64
float_features Tensor (Tidak ada, 700) float64
label Tensor (Tidak ada,) float64
query_id Teks rangkaian