web_nlg

  • توضیحات :

داده‌ها شامل مجموعه‌هایی از 1 تا 7 سه‌گانه از فرم موضوع-مشمول-ابژه استخراج شده از (DBpedia)[ https://wiki.dbpedia.org/ ] و متن زبان طبیعی است که بیان این سه گانه است. داده های آزمون شامل 15 حوزه مختلف است که تنها 10 حوزه در داده های آموزشی ظاهر می شود. مجموعه داده از یک قالب جدول استاندارد پیروی می کند.

شکاف مثال ها
'test_all' 4,928
'test_unseen' 2,433
'train' 18,102
'validation' 2268
  • ساختار ویژگی :
FeaturesDict({
    'input_text': FeaturesDict({
        'context': string,
        'table': Sequence({
            'column_header': string,
            'content': string,
            'row_number': int16,
        }),
    }),
    'target_text': string,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
متن ورودی FeaturesDict
input_text/context تانسور رشته
input_text/table توالی
input_text/table/column_header تانسور رشته
input_text/table/content تانسور رشته
input_text/table/row_number تانسور int16
هدف_متن تانسور رشته
  • نقل قول :
@inproceedings{gardent2017creating,
    title = ""Creating Training Corpora for {NLG} Micro-Planners"",
    author = ""Gardent, Claire  and
      Shimorina, Anastasia  and
      Narayan, Shashi  and
      Perez-Beltrachini, Laura"",
    booktitle = ""Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)"",
    month = jul,
    year = ""2017"",
    address = ""Vancouver, Canada"",
    publisher = ""Association for Computational Linguistics"",
    doi = ""10.18653/v1/P17-1017"",
    pages = ""179--188"",
    url = ""https://www.aclweb.org/anthology/P17-1017.pdf""
}