- توضیحات :
دادهها شامل مجموعههایی از 1 تا 7 سهگانه از فرم موضوع-مشمول-ابژه استخراج شده از (DBpedia)[ https://wiki.dbpedia.org/ ] و متن زبان طبیعی است که بیان این سه گانه است. داده های آزمون شامل 15 حوزه مختلف است که تنها 10 حوزه در داده های آموزشی ظاهر می شود. مجموعه داده از یک قالب جدول استاندارد پیروی می کند.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://webnlg-challenge.loria.fr/challenge_2017/
کد منبع :
tfds.structured.web_nlg.WebNlg
نسخه ها :
-
0.1.0
(پیش فرض): بدون یادداشت انتشار.
-
حجم دانلود :
19.76 MiB
حجم مجموعه داده :
13.78 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :
شکاف | مثال ها |
---|---|
'test_all' | 4,928 |
'test_unseen' | 2,433 |
'train' | 18,102 |
'validation' | 2268 |
- ساختار ویژگی :
FeaturesDict({
'input_text': FeaturesDict({
'context': string,
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
متن ورودی | FeaturesDict | |||
input_text/context | تانسور | رشته | ||
input_text/table | توالی | |||
input_text/table/column_header | تانسور | رشته | ||
input_text/table/content | تانسور | رشته | ||
input_text/table/row_number | تانسور | int16 | ||
هدف_متن | تانسور | رشته |
کلیدهای نظارت شده (مشاهده به
as_supervised
):('input_text', 'target_text')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@inproceedings{gardent2017creating,
title = ""Creating Training Corpora for {NLG} Micro-Planners"",
author = ""Gardent, Claire and
Shimorina, Anastasia and
Narayan, Shashi and
Perez-Beltrachini, Laura"",
booktitle = ""Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)"",
month = jul,
year = ""2017"",
address = ""Vancouver, Canada"",
publisher = ""Association for Computational Linguistics"",
doi = ""10.18653/v1/P17-1017"",
pages = ""179--188"",
url = ""https://www.aclweb.org/anthology/P17-1017.pdf""
}