איסטלה

  • תיאור :

מערכי הנתונים של Istella הם שלושה מערכי נתונים בקנה מידה גדול של למידה לדירוג שפורסמו על ידי Istella. כל מערך נתונים מורכב מזוגות שאילתה-מסמכים המיוצגים כווקטורים של תכונה ותוויות שיפוט מתאימות של רלוונטיות.

מערך הנתונים מכיל שלוש גרסאות:

  • main ("Istella LETOR"): מכיל 10,454,629 זוגות שאילתה-מסמכים.
  • s ("Istella-S LETOR"): מכיל 3,408,630 זוגות שאילתה-מסמכים.
  • x ("Istella-X LETOR"): מכיל 26,791,447 זוגות שאילתה-מסמכים.

אתה יכול לציין אם להשתמש בגרסה main , s או x של מערך הנתונים באופן הבא:

ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")

אם מצוין רק istella , האפשרות istella/main נבחרה כברירת מחדל:

# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
  • דף הבית : http://quickrank.isti.cnr.it/istella-dataset/

  • קוד מקור : tfds.ranking.istella.Istella

  • גרסאות :

    • 1.0.0 : שחרור ראשוני.
    • 1.0.1 : תקן סדרה כדי לתמוך ב-float64.
    • 1.1.0 : צרור תכונות לתכונה אחת של 'float_features'.
    • 1.2.0 (ברירת מחדל): הוסף מזהי שאילתה ומזהי מסמכים.
  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • מבנה תכונה :

FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 220), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
doc_id מוֹתֵחַ (אף אחד,) int64
לצוף_תכונות מוֹתֵחַ (אין, 220) לצוף64
תווית מוֹתֵחַ (אף אחד,) לצוף64
query_id טֶקסט חוּט
@article{10.1145/2987380,
  author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year = {2016},
  publisher = {ACM},
  address = {New York, NY, USA},
  volume = {35},
  number = {2},
  issn = {1046-8188},
  url = {https://doi.org/10.1145/2987380},
  doi = {10.1145/2987380},
  journal = {ACM Transactions on Information Systems},
  articleno = {15},
  numpages = {31},
}

istella/main (תצורת ברירת המחדל)

  • גודל הורדה : 1.20 GiB

  • גודל מערך נתונים : 1.12 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 9,799
'train' 23,219

איסטלה/ים

  • גודל הורדה : 450.26 MiB

  • גודל ערכת נתונים: 421.88 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 6,562
'train' 19,245
'vali' 7,211

istella/x

  • גודל הורדה : 4.42 GiB

  • גודל מערך נתונים : 2.46 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 2,000
'train' 6,000
'vali' 2,000
,

  • תיאור :

מערכי הנתונים של Istella הם שלושה מערכי נתונים בקנה מידה גדול של למידה לדירוג שפורסמו על ידי Istella. כל מערך נתונים מורכב מזוגות שאילתה-מסמכים המיוצגים כווקטורים של תכונה ותוויות שיפוט מתאימות של רלוונטיות.

מערך הנתונים מכיל שלוש גרסאות:

  • main ("Istella LETOR"): מכיל 10,454,629 זוגות שאילתה-מסמכים.
  • s ("Istella-S LETOR"): מכיל 3,408,630 זוגות שאילתה-מסמכים.
  • x ("Istella-X LETOR"): מכיל 26,791,447 זוגות שאילתה-מסמכים.

אתה יכול לציין אם להשתמש בגרסה main , s או x של מערך הנתונים באופן הבא:

ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")

אם מצוין רק istella , האפשרות istella/main נבחרה כברירת מחדל:

# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
  • דף הבית : http://quickrank.isti.cnr.it/istella-dataset/

  • קוד מקור : tfds.ranking.istella.Istella

  • גרסאות :

    • 1.0.0 : שחרור ראשוני.
    • 1.0.1 : תקן סדרה כדי לתמוך ב-float64.
    • 1.1.0 : צרור תכונות לתכונה אחת של 'float_features'.
    • 1.2.0 (ברירת מחדל): הוסף מזהי שאילתה ומזהי מסמכים.
  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • מבנה תכונה :

FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 220), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
doc_id מוֹתֵחַ (אף אחד,) int64
לצוף_תכונות מוֹתֵחַ (אין, 220) לצוף64
תווית מוֹתֵחַ (אף אחד,) לצוף64
query_id טֶקסט חוּט
@article{10.1145/2987380,
  author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year = {2016},
  publisher = {ACM},
  address = {New York, NY, USA},
  volume = {35},
  number = {2},
  issn = {1046-8188},
  url = {https://doi.org/10.1145/2987380},
  doi = {10.1145/2987380},
  journal = {ACM Transactions on Information Systems},
  articleno = {15},
  numpages = {31},
}

istella/main (תצורת ברירת המחדל)

  • גודל הורדה : 1.20 GiB

  • גודל מערך נתונים : 1.12 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 9,799
'train' 23,219

איסטלה/ים

  • גודל הורדה : 450.26 MiB

  • גודל ערכת נתונים: 421.88 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 6,562
'train' 19,245
'vali' 7,211

istella/x

  • גודל הורדה : 4.42 GiB

  • גודל מערך נתונים : 2.46 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 2,000
'train' 6,000
'vali' 2,000