استلا

  • توضیحات :

مجموعه داده های ایستلا سه مجموعه داده یادگیری به رتبه در مقیاس بزرگ هستند که توسط ایستلا منتشر شده اند. هر مجموعه داده شامل جفت‌های پرس و جو-سند است که به‌عنوان بردارهای ویژگی و برچسب‌های قضاوت مربوطه نشان داده می‌شوند.

مجموعه داده شامل سه نسخه است:

  • main ("Istella LETOR"): شامل 10454629 جفت پرس و جو-سند.
  • s ("Istella-S LETOR"): شامل 3,408,630 جفت درخواست-سند.
  • x ("Istella-X LETOR"): شامل 26791447 جفت پرس و جو-سند.

شما می توانید تعیین کنید که آیا از نسخه main ، s یا x مجموعه داده به صورت زیر استفاده کنید:

ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")

اگر فقط istella مشخص شده باشد، گزینه istella/main به طور پیش فرض انتخاب می شود:

# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
  • صفحه اصلی : http://quickrank.isti.cnr.it/istella-dataset/

  • کد منبع : tfds.ranking.istella.Istella

  • نسخه ها :

    • 1.0.0 : انتشار اولیه.
    • 1.0.1 : سریال سازی را برای پشتیبانی از float64 برطرف کنید.
    • 1.1.0 : ویژگی ها را در یک ویژگی «float_features» دسته بندی کنید.
    • 1.2.0 (پیش فرض): شناسه های پرس و جو و سند را اضافه کنید.
  • ذخیره خودکار ( اسناد ): خیر

  • ساختار ویژگی :

FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 220), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
doc_id تانسور (هیچ یک،) int64
float_features تانسور (هیچ، 220) float64
برچسب تانسور (هیچ یک،) float64
query_id متن رشته
@article{10.1145/2987380,
  author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year = {2016},
  publisher = {ACM},
  address = {New York, NY, USA},
  volume = {35},
  number = {2},
  issn = {1046-8188},
  url = {https://doi.org/10.1145/2987380},
  doi = {10.1145/2987380},
  journal = {ACM Transactions on Information Systems},
  articleno = {15},
  numpages = {31},
}

istella/main (پیکربندی پیش فرض)

  • حجم دانلود : 1.20 GiB

  • حجم مجموعه داده : 1.12 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 9799
'train' 23,219

istella/s

  • حجم دانلود : 450.26 MiB

  • حجم مجموعه داده : 421.88 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 6562
'train' 19,245
'vali' 7211

istella/x

  • حجم دانلود : 4.42 GiB

  • حجم مجموعه داده : 2.46 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 2000
'train' 6000
'vali' 2000
،

  • توضیحات :

مجموعه داده های ایستلا سه مجموعه داده یادگیری به رتبه در مقیاس بزرگ هستند که توسط ایستلا منتشر شده اند. هر مجموعه داده شامل جفت‌های پرس و جو-سند است که به‌عنوان بردارهای ویژگی و برچسب‌های قضاوت مربوطه نشان داده می‌شوند.

مجموعه داده شامل سه نسخه است:

  • main ("Istella LETOR"): شامل 10454629 جفت پرس و جو-سند.
  • s ("Istella-S LETOR"): شامل 3,408,630 جفت درخواست-سند.
  • x ("Istella-X LETOR"): شامل 26791447 جفت پرس و جو-سند.

شما می توانید تعیین کنید که آیا از نسخه main ، s یا x مجموعه داده به صورت زیر استفاده کنید:

ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")

اگر فقط istella مشخص شده باشد، گزینه istella/main به طور پیش فرض انتخاب می شود:

# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
  • صفحه اصلی : http://quickrank.isti.cnr.it/istella-dataset/

  • کد منبع : tfds.ranking.istella.Istella

  • نسخه ها :

    • 1.0.0 : انتشار اولیه.
    • 1.0.1 : سریال سازی را برای پشتیبانی از float64 برطرف کنید.
    • 1.1.0 : ویژگی ها را در یک ویژگی «float_features» دسته بندی کنید.
    • 1.2.0 (پیش فرض): شناسه های پرس و جو و سند را اضافه کنید.
  • ذخیره خودکار ( اسناد ): خیر

  • ساختار ویژگی :

FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 220), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
doc_id تانسور (هیچ یک،) int64
float_features تانسور (هیچ، 220) float64
برچسب تانسور (هیچ یک،) float64
query_id متن رشته
@article{10.1145/2987380,
  author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year = {2016},
  publisher = {ACM},
  address = {New York, NY, USA},
  volume = {35},
  number = {2},
  issn = {1046-8188},
  url = {https://doi.org/10.1145/2987380},
  doi = {10.1145/2987380},
  journal = {ACM Transactions on Information Systems},
  articleno = {15},
  numpages = {31},
}

istella/main (پیکربندی پیش فرض)

  • حجم دانلود : 1.20 GiB

  • حجم مجموعه داده : 1.12 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 9799
'train' 23,219

istella/s

  • حجم دانلود : 450.26 MiB

  • حجم مجموعه داده : 421.88 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 6562
'train' 19,245
'vali' 7211

istella/x

  • حجم دانلود : 4.42 GiB

  • حجم مجموعه داده : 2.46 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 2000
'train' 6000
'vali' 2000