- תיאור :
מערכי הנתונים של Istella הם שלושה מערכי נתונים בקנה מידה גדול של למידה לדירוג שפורסמו על ידי Istella. כל מערך נתונים מורכב מזוגות שאילתה-מסמכים המיוצגים כווקטורים של תכונה ותוויות שיפוט מתאימות של רלוונטיות.
מערך הנתונים מכיל שלוש גרסאות:
-
main
("Istella LETOR"): מכיל 10,454,629 זוגות שאילתה-מסמכים. -
s
("Istella-S LETOR"): מכיל 3,408,630 זוגות שאילתה-מסמכים. -
x
("Istella-X LETOR"): מכיל 26,791,447 זוגות שאילתה-מסמכים.
אתה יכול לציין אם להשתמש בגרסה main
, s
או x
של מערך הנתונים באופן הבא:
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
אם מצוין רק istella
, האפשרות istella/main
נבחרה כברירת מחדל:
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
קוד מקור :
tfds.ranking.istella.Istella
גרסאות :
-
1.0.0
: שחרור ראשוני. -
1.0.1
: תקן סדרה כדי לתמוך ב-float64. -
1.1.0
: צרור תכונות לתכונה אחת של 'float_features'. -
1.2.0
(ברירת מחדל): הוסף מזהי שאילתה ומזהי מסמכים.
-
שמירה אוטומטית במטמון ( תיעוד ): לא
מבנה תכונה :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
doc_id | מוֹתֵחַ | (אף אחד,) | int64 | |
לצוף_תכונות | מוֹתֵחַ | (אין, 220) | לצוף64 | |
תווית | מוֹתֵחַ | (אף אחד,) | לצוף64 | |
query_id | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella/main (תצורת ברירת המחדל)
גודל הורדה :
1.20 GiB
גודל מערך נתונים :
1.12 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 9,799 |
'train' | 23,219 |
- דוגמאות ( tfds.as_dataframe ):
איסטלה/ים
גודל הורדה :
450.26 MiB
גודל ערכת נתונים:
421.88 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 6,562 |
'train' | 19,245 |
'vali' | 7,211 |
- דוגמאות ( tfds.as_dataframe ):
istella/x
גודל הורדה :
4.42 GiB
גודל מערך נתונים :
2.46 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- דוגמאות ( tfds.as_dataframe ):
- תיאור :
מערכי הנתונים של Istella הם שלושה מערכי נתונים בקנה מידה גדול של למידה לדירוג שפורסמו על ידי Istella. כל מערך נתונים מורכב מזוגות שאילתה-מסמכים המיוצגים כווקטורים של תכונה ותוויות שיפוט מתאימות של רלוונטיות.
מערך הנתונים מכיל שלוש גרסאות:
-
main
("Istella LETOR"): מכיל 10,454,629 זוגות שאילתה-מסמכים. -
s
("Istella-S LETOR"): מכיל 3,408,630 זוגות שאילתה-מסמכים. -
x
("Istella-X LETOR"): מכיל 26,791,447 זוגות שאילתה-מסמכים.
אתה יכול לציין אם להשתמש בגרסה main
, s
או x
של מערך הנתונים באופן הבא:
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
אם מצוין רק istella
, האפשרות istella/main
נבחרה כברירת מחדל:
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
קוד מקור :
tfds.ranking.istella.Istella
גרסאות :
-
1.0.0
: שחרור ראשוני. -
1.0.1
: תקן סדרה כדי לתמוך ב-float64. -
1.1.0
: צרור תכונות לתכונה אחת של 'float_features'. -
1.2.0
(ברירת מחדל): הוסף מזהי שאילתה ומזהי מסמכים.
-
שמירה אוטומטית במטמון ( תיעוד ): לא
מבנה תכונה :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
doc_id | מוֹתֵחַ | (אף אחד,) | int64 | |
לצוף_תכונות | מוֹתֵחַ | (אין, 220) | לצוף64 | |
תווית | מוֹתֵחַ | (אף אחד,) | לצוף64 | |
query_id | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella/main (תצורת ברירת המחדל)
גודל הורדה :
1.20 GiB
גודל מערך נתונים :
1.12 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 9,799 |
'train' | 23,219 |
- דוגמאות ( tfds.as_dataframe ):
איסטלה/ים
גודל הורדה :
450.26 MiB
גודל ערכת נתונים:
421.88 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 6,562 |
'train' | 19,245 |
'vali' | 7,211 |
- דוגמאות ( tfds.as_dataframe ):
istella/x
גודל הורדה :
4.42 GiB
גודל מערך נתונים :
2.46 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- דוגמאות ( tfds.as_dataframe ):