- توضیحات :
مجموعه استنتاج زبان طبیعی چند ژانر (MultiNLI) مجموعه ای جمعی از 433 هزار جفت جمله است که با اطلاعات دلالت متنی حاشیه نویسی شده است. پیکره بر اساس پیکره SNLI مدل شده است، اما از این جهت متفاوت است که طیفی از ژانرهای متن گفتاری و نوشتاری را پوشش می دهد و از ارزیابی تعمیم متقابل ژانر متمایز پشتیبانی می کند. این مجموعه به عنوان مبنایی برای وظیفه مشترک کارگاه آموزشی RepEval 2017 در EMNLP در کپنهاگ بود.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://www.nyu.edu/projects/bowman/multinli/
کد منبع :
tfds.text.MultiNLI
نسخه ها :
-
1.1.0
(پیش فرض): بدون یادداشت انتشار.
-
حجم دانلود :
216.34 MiB
حجم مجموعه داده :
89.50 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 392702 |
'validation_matched' | 9,815 |
'validation_mismatched' | 9,832 |
- ساختار ویژگی :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'premise': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
فرضیه | متن | رشته | ||
برچسب | ClassLabel | int64 | ||
فرضیه | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@InProceedings{N18-1101,
author = "Williams, Adina
and Nangia, Nikita
and Bowman, Samuel",
title = "A Broad-Coverage Challenge Corpus for
Sentence Understanding through Inference",
booktitle = "Proceedings of the 2018 Conference of
the North American Chapter of the
Association for Computational Linguistics:
Human Language Technologies, Volume 1 (Long
Papers)",
year = "2018",
publisher = "Association for Computational Linguistics",
pages = "1112--1122",
location = "New Orleans, Louisiana",
url = "http://aclweb.org/anthology/N18-1101"
}