- توضیحات :
مجموعه داده طبقه بندی سوالات کنفرانس بازیابی متن (TREC) شامل 5500 سوال برچسب گذاری شده در مجموعه آموزشی و 500 سوال دیگر برای مجموعه تست است. مجموعه داده دارای 6 برچسب، 47 برچسب سطح 2 است. میانگین طول هر جمله 10، حجم واژگان 8700 است. داده ها از چهار منبع جمع آوری شده است: 4500 سؤال انگلیسی منتشر شده توسط USC (Hovy et al., 2001)، حدود 500 سؤال دستی ساخته شده برای چند کلاس نادر، 894 TREC 8 و سوالات TREC 9 و همچنین 500 سوال از TREC 10 که به عنوان مجموعه تست عمل می کند.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://cogcomp.seas.upenn.edu/Data/QA/QC/
کد منبع :
tfds.datasets.trec.Builder
نسخه ها :
-
1.0.0
(پیش فرض): بدون یادداشت انتشار.
-
حجم دانلود :
350.79 KiB
حجم مجموعه داده :
636.90 KiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 500 |
'train' | 5,452 |
- ساختار ویژگی :
FeaturesDict({
'label-coarse': ClassLabel(shape=(), dtype=int64, num_classes=6),
'label-fine': ClassLabel(shape=(), dtype=int64, num_classes=47),
'text': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
برچسب درشت | ClassLabel | int64 | ||
برچسب خوب | ClassLabel | int64 | ||
متن | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@inproceedings{li-roth-2002-learning,
title = "Learning Question Classifiers",
author = "Li, Xin and
Roth, Dan",
booktitle = "{COLING} 2002: The 19th International Conference on Computational Linguistics",
year = "2002",
url = "https://www.aclweb.org/anthology/C02-1150",
}
@inproceedings{hovy-etal-2001-toward,
title = "Toward Semantics-Based Answer Pinpointing",
author = "Hovy, Eduard and
Gerber, Laurie and
Hermjakob, Ulf and
Lin, Chin-Yew and
Ravichandran, Deepak",
booktitle = "Proceedings of the First International Conference on Human Language Technology Research",
year = "2001",
url = "https://www.aclweb.org/anthology/H01-1069",
}