web_nlg

  • الوصف :

تحتوي البيانات على مجموعات من 1 إلى 7 ثلاث مرات من نموذج الموضوع - المسند - الكائن المستخرج من (DBpedia) [ https://wiki.dbpedia.org/ ] ونص اللغة الطبيعية الذي يمثل شرحًا لفظيًا لهذه الثلاثيات. تمتد بيانات الاختبار إلى 15 مجالًا مختلفًا حيث يظهر 10 فقط في بيانات التدريب. تتبع مجموعة البيانات تنسيق جدول قياسي.

انشق، مزق أمثلة
'test_all' 4،928
'test_unseen' 2433
'train' 18102
'validation' 2،268
  • هيكل الميزة :
FeaturesDict({
    'input_text': FeaturesDict({
        'context': string,
        'table': Sequence({
            'column_header': string,
            'content': string,
            'row_number': int16,
        }),
    }),
    'target_text': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
أدخل نصآ الميزات
input_text / السياق موتر سلسلة
input_text / الجدول تسلسل
input_text / table / column_header. إدخال / نص / جدول / عمود موتر سلسلة
input_text / جدول / محتوى موتر سلسلة
input_text / table / row_number موتر int16
target_text موتر سلسلة
  • الاقتباس :
@inproceedings{gardent2017creating,
    title = ""Creating Training Corpora for {NLG} Micro-Planners"",
    author = ""Gardent, Claire  and
      Shimorina, Anastasia  and
      Narayan, Shashi  and
      Perez-Beltrachini, Laura"",
    booktitle = ""Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)"",
    month = jul,
    year = ""2017"",
    address = ""Vancouver, Canada"",
    publisher = ""Association for Computational Linguistics"",
    doi = ""10.18653/v1/P17-1017"",
    pages = ""179--188"",
    url = ""https://www.aclweb.org/anthology/P17-1017.pdf""
}