- תיאור :
מערך השאלות של ועידת אחזור הטקסט (TREC) מכיל 5500 שאלות עם תווית בערכת הדרכה ועוד 500 עבור ערכת מבחנים. למערך הנתונים יש 6 תוויות, 47 תוויות ברמה 2. אורך ממוצע של כל משפט הוא 10, גודל אוצר מילים של 8700. הנתונים נאספים מארבעה מקורות: 4,500 שאלות באנגלית שפורסמו על ידי USC (Hovy et al., 2001), כ-500 שאלות שנבנו באופן ידני לכמה שיעורים נדירים, 894 TREC 8 ו TREC 9 שאלות, וגם 500 שאלות מ-TREC 10 המשמש כמערך המבחן.
תיעוד נוסף : חקור על ניירות עם קוד
קוד מקור :
tfds.datasets.trec.Builder
גרסאות :
-
1.0.0
(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
350.79 KiB
גודל מערך נתונים :
636.90 KiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 500 |
'train' | 5,452 |
- מבנה תכונה :
FeaturesDict({
'label-coarse': ClassLabel(shape=(), dtype=int64, num_classes=6),
'label-fine': ClassLabel(shape=(), dtype=int64, num_classes=47),
'text': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תווית-גסה | ClassLabel | int64 | ||
תווית בסדר | ClassLabel | int64 | ||
טֶקסט | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@inproceedings{li-roth-2002-learning,
title = "Learning Question Classifiers",
author = "Li, Xin and
Roth, Dan",
booktitle = "{COLING} 2002: The 19th International Conference on Computational Linguistics",
year = "2002",
url = "https://www.aclweb.org/anthology/C02-1150",
}
@inproceedings{hovy-etal-2001-toward,
title = "Toward Semantics-Based Answer Pinpointing",
author = "Hovy, Eduard and
Gerber, Laurie and
Hermjakob, Ulf and
Lin, Chin-Yew and
Ravichandran, Deepak",
booktitle = "Proceedings of the First International Conference on Human Language Technology Research",
year = "2001",
url = "https://www.aclweb.org/anthology/H01-1069",
}