- Descriptif :
WikiAuto fournit un ensemble de phrases alignées de Wikipédia anglais et de Wikipédia anglais simple comme ressource pour former des systèmes de simplification de phrases. Les auteurs ont d'abord collecté un ensemble d'alignements manuels entre des phrases dans un sous-ensemble de Wikipédia en anglais simple et leurs versions correspondantes dans Wikipédia en anglais (cela correspond à la configuration manual
), puis ont formé un système CRF neuronal pour prédire ces alignements. Le modèle formé a ensuite été appliqué aux autres articles de Simple English Wikipedia avec un équivalent anglais pour créer un corpus plus large de phrases alignées (correspondant aux configurations auto
, auto_acl
, auto_full_no_split
et auto_full_with_split
ici).
Page d' accueil : https://github.com/chaojiang06/wiki-auto
Code source :
tfds.text_simplification.wiki_auto.WikiAuto
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@inproceedings{acl/JiangMLZX20,
author = {Chao Jiang and
Mounica Maddela and
Wuwei Lan and
Yang Zhong and
Wei Xu},
editor = {Dan Jurafsky and
Joyce Chai and
Natalie Schluter and
Joel R. Tetreault},
title = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
pages = {7943--7960},
publisher = {Association for Computational Linguistics},
year = {2020},
url = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}
wiki_auto/manuel (configuration par défaut)
Description de la configuration : un ensemble de 10 000 paires de phrases Wikipédia alignées par les travailleurs de la foule.
Taille du téléchargement :
53.47 MiB
Taille du jeu de données :
76.87 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'dev' | 73 249 |
'test' | 118 074 |
- Structure des fonctionnalités :
FeaturesDict({
'GLEU-score': float64,
'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
Score GLEU | Tenseur | float64 | ||
étiquette_alignement | Étiquette de classe | int64 | ||
phrase_normale | Texte | chaîne de caractères | ||
normal_sentence_id | Texte | chaîne de caractères | ||
phrase simple | Texte | chaîne de caractères | ||
simple_phrase_id | Texte | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):
wiki_auto/auto_acl
Description de la configuration : paires de phrases alignées pour entraîner le système ACL2020.
Taille du téléchargement :
112.60 MiB
Taille du jeu de données :
138.83 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque
shuffle_files=False
(complet)Fractionnements :
Diviser | Exemples |
---|---|
'full' | 488 332 |
- Structure des fonctionnalités :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
phrase_normale | Texte | chaîne de caractères | ||
phrase simple | Texte | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):
wiki_auto/auto_full_no_split
Description de la configuration : Toutes les paires de phrases alignées automatiquement sans fractionnement de phrase.
Taille du téléchargement :
135.02 MiB
Taille du jeu de données :
166.78 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque
shuffle_files=False
(complet)Fractionnements :
Diviser | Exemples |
---|---|
'full' | 591 994 |
- Structure des fonctionnalités :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
phrase_normale | Texte | chaîne de caractères | ||
phrase simple | Texte | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):
wiki_auto/auto_full_with_split
Description de la configuration : Toutes les paires de phrases alignées automatiquement avec fractionnement des phrases.
Taille du téléchargement :
115.09 MiB
Taille du jeu de données :
141.20 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque
shuffle_files=False
(complet)Fractionnements :
Diviser | Exemples |
---|---|
'full' | 483 801 |
- Structure des fonctionnalités :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
phrase_normale | Texte | chaîne de caractères | ||
phrase simple | Texte | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):
wiki_auto/auto
Description de la configuration : Un grand ensemble de paires de phrases alignées automatiquement.
Taille du téléchargement :
2.01 GiB
Taille du jeu de données :
1.76 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'part_1' | 125 059 |
'part_2' | 13 036 |
- Structure des fonctionnalités :
FeaturesDict({
'example_id': Text(shape=(), dtype=string),
'normal': FeaturesDict({
'normal_article_content': Sequence({
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
}),
'normal_article_id': int32,
'normal_article_title': Text(shape=(), dtype=string),
'normal_article_url': Text(shape=(), dtype=string),
}),
'paragraph_alignment': Sequence({
'normal_paragraph_id': Text(shape=(), dtype=string),
'simple_paragraph_id': Text(shape=(), dtype=string),
}),
'sentence_alignment': Sequence({
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple': FeaturesDict({
'simple_article_content': Sequence({
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple_article_id': int32,
'simple_article_title': Text(shape=(), dtype=string),
'simple_article_url': Text(shape=(), dtype=string),
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
example_id | Texte | chaîne de caractères | ||
Ordinaire | FonctionnalitésDict | |||
normal/normal_article_content | Séquence | |||
normal/normal_article_content/normal_sentence | Texte | chaîne de caractères | ||
normal/normal_article_content/normal_sentence_id | Texte | chaîne de caractères | ||
normal/normal_article_id | Tenseur | int32 | ||
normal/normal_article_title | Texte | chaîne de caractères | ||
normal/normal_article_url | Texte | chaîne de caractères | ||
alignement_paragraphe | Séquence | |||
alignement_paragraphe/id_paragraphe_normal | Texte | chaîne de caractères | ||
alignement_paragraphe/id_paragraphe_simple | Texte | chaîne de caractères | ||
phrase_alignement | Séquence | |||
phrase_alignment/normal_sentence_id | Texte | chaîne de caractères | ||
phrase_alignement/simple_phrase_id | Texte | chaîne de caractères | ||
Facile | FonctionnalitésDict | |||
simple/simple_article_content | Séquence | |||
simple/simple_article_content/simple_sentence | Texte | chaîne de caractères | ||
simple/simple_article_content/simple_phrase_id | Texte | chaîne de caractères | ||
simple/simple_article_id | Tenseur | int32 | ||
simple/simple_article_title | Texte | chaîne de caractères | ||
simple/simple_article_url | Texte | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):