- توضیحات :
مجموعه داده های ایستلا سه مجموعه داده یادگیری به رتبه در مقیاس بزرگ هستند که توسط ایستلا منتشر شده اند. هر مجموعه داده شامل جفتهای پرس و جو-سند است که بهعنوان بردارهای ویژگی و برچسبهای قضاوت مربوطه نشان داده میشوند.
مجموعه داده شامل سه نسخه است:
-
main
("Istella LETOR"): شامل 10454629 جفت پرس و جو-سند. -
s
("Istella-S LETOR"): شامل 3,408,630 جفت درخواست-سند. -
x
("Istella-X LETOR"): شامل 26791447 جفت پرس و جو-سند.
شما می توانید تعیین کنید که آیا از نسخه main
، s
یا x
مجموعه داده به صورت زیر استفاده کنید:
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
اگر فقط istella
مشخص شده باشد، گزینه istella/main
به طور پیش فرض انتخاب می شود:
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
صفحه اصلی : http://quickrank.isti.cnr.it/istella-dataset/
کد منبع :
tfds.ranking.istella.Istella
نسخه ها :
-
1.0.0
: انتشار اولیه. -
1.0.1
: سریال سازی را برای پشتیبانی از float64 برطرف کنید. -
1.1.0
: ویژگی ها را در یک ویژگی «float_features» دسته بندی کنید. -
1.2.0
(پیش فرض): شناسه های پرس و جو و سند را اضافه کنید.
-
ذخیره خودکار ( اسناد ): خیر
ساختار ویژگی :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
doc_id | تانسور | (هیچ یک،) | int64 | |
float_features | تانسور | (هیچ، 220) | float64 | |
برچسب | تانسور | (هیچ یک،) | float64 | |
query_id | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella/main (پیکربندی پیش فرض)
حجم دانلود :
1.20 GiB
حجم مجموعه داده :
1.12 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 9799 |
'train' | 23,219 |
- مثالها ( tfds.as_dataframe ):
istella/s
حجم دانلود :
450.26 MiB
حجم مجموعه داده :
421.88 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 6562 |
'train' | 19,245 |
'vali' | 7211 |
- مثالها ( tfds.as_dataframe ):
istella/x
حجم دانلود :
4.42 GiB
حجم مجموعه داده :
2.46 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 2000 |
'train' | 6000 |
'vali' | 2000 |
- مثالها ( tfds.as_dataframe ):
- توضیحات :
مجموعه داده های ایستلا سه مجموعه داده یادگیری به رتبه در مقیاس بزرگ هستند که توسط ایستلا منتشر شده اند. هر مجموعه داده شامل جفتهای پرس و جو-سند است که بهعنوان بردارهای ویژگی و برچسبهای قضاوت مربوطه نشان داده میشوند.
مجموعه داده شامل سه نسخه است:
-
main
("Istella LETOR"): شامل 10454629 جفت پرس و جو-سند. -
s
("Istella-S LETOR"): شامل 3,408,630 جفت درخواست-سند. -
x
("Istella-X LETOR"): شامل 26791447 جفت پرس و جو-سند.
شما می توانید تعیین کنید که آیا از نسخه main
، s
یا x
مجموعه داده به صورت زیر استفاده کنید:
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
اگر فقط istella
مشخص شده باشد، گزینه istella/main
به طور پیش فرض انتخاب می شود:
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
صفحه اصلی : http://quickrank.isti.cnr.it/istella-dataset/
کد منبع :
tfds.ranking.istella.Istella
نسخه ها :
-
1.0.0
: انتشار اولیه. -
1.0.1
: سریال سازی را برای پشتیبانی از float64 برطرف کنید. -
1.1.0
: ویژگی ها را در یک ویژگی «float_features» دسته بندی کنید. -
1.2.0
(پیش فرض): شناسه های پرس و جو و سند را اضافه کنید.
-
ذخیره خودکار ( اسناد ): خیر
ساختار ویژگی :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
doc_id | تانسور | (هیچ یک،) | int64 | |
float_features | تانسور | (هیچ، 220) | float64 | |
برچسب | تانسور | (هیچ یک،) | float64 | |
query_id | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella/main (پیکربندی پیش فرض)
حجم دانلود :
1.20 GiB
حجم مجموعه داده :
1.12 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 9799 |
'train' | 23,219 |
- مثالها ( tfds.as_dataframe ):
istella/s
حجم دانلود :
450.26 MiB
حجم مجموعه داده :
421.88 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 6562 |
'train' | 19,245 |
'vali' | 7211 |
- مثالها ( tfds.as_dataframe ):
istella/x
حجم دانلود :
4.42 GiB
حجم مجموعه داده :
2.46 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 2000 |
'train' | 6000 |
'vali' | 2000 |
- مثالها ( tfds.as_dataframe ):