wiki_auto

  • Descriptif :

WikiAuto fournit un ensemble de phrases alignées de Wikipédia anglais et de Wikipédia anglais simple comme ressource pour former des systèmes de simplification de phrases. Les auteurs ont d'abord collecté un ensemble d'alignements manuels entre des phrases dans un sous-ensemble de Wikipédia en anglais simple et leurs versions correspondantes dans Wikipédia en anglais (cela correspond à la configuration manual ), puis ont formé un système CRF neuronal pour prédire ces alignements. Le modèle formé a ensuite été appliqué aux autres articles de Simple English Wikipedia avec un équivalent anglais pour créer un corpus plus large de phrases alignées (correspondant aux configurations auto , auto_acl , auto_full_no_split et auto_full_with_split ici).

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manuel (configuration par défaut)

  • Description de la configuration : un ensemble de 10 000 paires de phrases Wikipédia alignées par les travailleurs de la foule.

  • Taille du téléchargement : 53.47 MiB

  • Taille du jeu de données : 76.87 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'dev' 73 249
'test' 118 074
  • Structure des fonctionnalités :
FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
Score GLEU Tenseur float64
étiquette_alignement Étiquette de classe int64
phrase_normale Texte chaîne de caractères
normal_sentence_id Texte chaîne de caractères
phrase simple Texte chaîne de caractères
simple_phrase_id Texte chaîne de caractères

wiki_auto/auto_acl

  • Description de la configuration : paires de phrases alignées pour entraîner le système ACL2020.

  • Taille du téléchargement : 112.60 MiB

  • Taille du jeu de données : 138.83 MiB

  • Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (complet)

  • Fractionnements :

Diviser Exemples
'full' 488 332
  • Structure des fonctionnalités :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
phrase_normale Texte chaîne de caractères
phrase simple Texte chaîne de caractères

wiki_auto/auto_full_no_split

  • Description de la configuration : Toutes les paires de phrases alignées automatiquement sans fractionnement de phrase.

  • Taille du téléchargement : 135.02 MiB

  • Taille du jeu de données : 166.78 MiB

  • Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (complet)

  • Fractionnements :

Diviser Exemples
'full' 591 994
  • Structure des fonctionnalités :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
phrase_normale Texte chaîne de caractères
phrase simple Texte chaîne de caractères

wiki_auto/auto_full_with_split

  • Description de la configuration : Toutes les paires de phrases alignées automatiquement avec fractionnement des phrases.

  • Taille du téléchargement : 115.09 MiB

  • Taille du jeu de données : 141.20 MiB

  • Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (complet)

  • Fractionnements :

Diviser Exemples
'full' 483 801
  • Structure des fonctionnalités :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
phrase_normale Texte chaîne de caractères
phrase simple Texte chaîne de caractères

wiki_auto/auto

  • Description de la configuration : Un grand ensemble de paires de phrases alignées automatiquement.

  • Taille du téléchargement : 2.01 GiB

  • Taille du jeu de données : 1.76 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'part_1' 125 059
'part_2' 13 036
  • Structure des fonctionnalités :
FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
example_id Texte chaîne de caractères
Ordinaire FonctionnalitésDict
normal/normal_article_content Séquence
normal/normal_article_content/normal_sentence Texte chaîne de caractères
normal/normal_article_content/normal_sentence_id Texte chaîne de caractères
normal/normal_article_id Tenseur int32
normal/normal_article_title Texte chaîne de caractères
normal/normal_article_url Texte chaîne de caractères
alignement_paragraphe Séquence
alignement_paragraphe/id_paragraphe_normal Texte chaîne de caractères
alignement_paragraphe/id_paragraphe_simple Texte chaîne de caractères
phrase_alignement Séquence
phrase_alignment/normal_sentence_id Texte chaîne de caractères
phrase_alignement/simple_phrase_id Texte chaîne de caractères
Facile FonctionnalitésDict
simple/simple_article_content Séquence
simple/simple_article_content/simple_sentence Texte chaîne de caractères
simple/simple_article_content/simple_phrase_id Texte chaîne de caractères
simple/simple_article_id Tenseur int32
simple/simple_article_title Texte chaîne de caractères
simple/simple_article_url Texte chaîne de caractères