एसेट

  • विवरण :

ASSET कई पुनर्लेखन रूपांतरणों के साथ वाक्य सरलीकरण प्रणालियों के मूल्यांकन के लिए एक डेटासेट है, जैसा कि "ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations" में वर्णित है। कॉर्पस 2000 सत्यापन और 359 परीक्षण मूल वाक्यों से बना है जो प्रत्येक को अलग-अलग व्याख्याकारों द्वारा 10 बार सरलीकृत किया गया था। कॉर्पस में कई स्वचालित पाठ सरलीकरण प्रणालियों के आउटपुट के लिए अर्थ संरक्षण, प्रवाह और सरलता के मानवीय निर्णय भी शामिल हैं।

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

संपत्ति/सरलीकरण (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • विन्यास विवरण : प्रत्येक के लिए 10 संभावित सरलीकरण के साथ संरेखित मूल वाक्यों का एक सेट।

  • डेटासेट का आकार : 2.64 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 359
'validation' 2,000
  • फ़ीचर संरचना :
FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
मूल मूलपाठ डोरी
सरलीकरण अनुक्रम (पाठ) (कोई भी नहीं,) डोरी

संपत्ति / रेटिंग

  • विन्यास विवरण : स्वचालित रूप से निर्मित पाठ सरलीकरण की मानव रेटिंग।

  • डेटासेट का आकार : 1.44 MiB

  • विभाजन :

विभाजित करना उदाहरण
'full' 4,500
  • फ़ीचर संरचना :
FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
पहलू क्लासलेबल int64
मूल मूलपाठ डोरी
मूल_वाक्य_आईडी टेन्सर int32
रेटिंग टेन्सर int32
सरलीकरण मूलपाठ डोरी
कार्यकर्ता_आईडी टेन्सर int32