مادة عرض

  • الوصف :

ASSET هي مجموعة بيانات لتقييم أنظمة تبسيط الجمل مع تحويلات إعادة كتابة متعددة ، كما هو موضح في "الأصول: مجموعة بيانات لضبط وتقييم نماذج تبسيط الجملة مع تحويلات إعادة كتابة متعددة." تتكون المجموعة من 2000 عملية تحقق و 359 جملة اختبار أصلية تم تبسيط كل منها 10 مرات بواسطة شروح مختلفة. تحتوي المجموعة أيضًا على أحكام بشرية تتعلق بالحفاظ على المعنى والطلاقة والبساطة لمخرجات العديد من أنظمة تبسيط النص التلقائي.

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

الأصول / التبسيط (التكوين الافتراضي)

  • وصف التكوين : مجموعة من الجمل الأصلية تتماشى مع 10 تبسيطات محتملة لكل منها.

  • حجم مجموعة البيانات : 2.64 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 359
'validation' 2000
  • هيكل الميزة :
FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
أصلي نص سلسلة
التبسيط تسلسل (نص) (لا أحد،) سلسلة

الأصول / التصنيفات

  • وصف التكوين : تصنيفات بشرية لتبسيط النص الناتج تلقائيًا.

  • حجم مجموعة البيانات : 1.44 MiB

  • الانقسامات :

انشق، مزق أمثلة
'full' 4500
  • هيكل الميزة :
FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
جانب ClassLabel int64
أصلي نص سلسلة
original_sentence_id موتر int32
تقييم موتر int32
تبسيط نص سلسلة
worker_id موتر int32