élément

  • Descriptif :

ASSET est un ensemble de données permettant d'évaluer les systèmes de simplification de phrases avec plusieurs transformations de réécriture, comme décrit dans "ASSET : un ensemble de données pour le réglage et l'évaluation de modèles de simplification de phrases avec plusieurs transformations de réécriture". Le corpus est composé de 2000 phrases de validation et de 359 phrases originales de test qui ont chacune été simplifiées 10 fois par différents annotateurs. Le corpus contient également des jugements humains sur la préservation du sens, la fluidité et la simplicité des résultats de plusieurs systèmes automatiques de simplification de texte.

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

atout/simplification (config par défaut)

  • Description de la configuration : Un ensemble de phrases originales alignées avec 10 simplifications possibles pour chacune.

  • Taille du jeu de données : 2.64 MiB

  • Fractionnements :

Diviser Exemples
'test' 359
'validation' 2 000
  • Structure des fonctionnalités :
FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
original Texte chaîne de caractères
simplifications Séquence (texte) (Aucun,) chaîne de caractères

atout/notations

  • Description de la configuration : Évaluations humaines de la simplification du texte produit automatiquement.

  • Taille du jeu de données : 1.44 MiB

  • Fractionnements :

Diviser Exemples
'full' 4 500
  • Structure des fonctionnalités :
FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
aspect Étiquette de classe int64
original Texte chaîne de caractères
original_sentence_id Tenseur int32
évaluation Tenseur int32
simplification Texte chaîne de caractères
worker_id Tenseur int32